Det viktigaste ledordet är transparens. Sedan länge jobbar vi med öppen källkod, öppen dokumentation och öppen backlog. Grundprincipen är att användare (och allmänhet) ska ha insyn i det vi gör, kunna återanvända vår kod och kunna bidra till utvecklingen framåt. Det är en bra grund, men den öppenheten är inte tillräcklig ur ett dataetiskt perspektiv eftersom källkoden och dokumentationen i praktiken bara är läslig för andra utvecklare. Forskning har visat att ju fler perspektiv som inkluderas i utvecklingen, desto bättre produkter och mindre risk för diskriminerande effekter. Ett problem som uppmärksammats ett flertal gånger i diskussioner om AI-utvecklingen är att de homogena utvecklarmiljöerna leder till produkter med algoritmisk bias. (1) Men bristen på mångfald har konsekvenser på flera plan, något som till exempel AI-konsulten och designern Pete Trainor också påpekar i en artikel på Medium.com: “The lack of diversity stifles innovation, perpetuates biases, and contributes to the development of technologies that reinforce societal inequalities.” (2)
För att motverka dessa potentiella risker strävar Jobtech efter att följa Open Data Institutes rekommendationer om att applicera dataetik under hela utvecklingskedjan, från idé till utveckling, release och förvaltning. (3) För att främja inkludering i utvecklingen av våra produkter – för att ge plats åt dem som inte sitter vid bordet – publicerar vi våra etikutvärderingar öppet i Jobtechs diskussionsforum och bjuder in allmänheten att återkoppla och ge sina synpunkter. Med ett agilt arbetssätt gör utvecklarteamet en första etisk utvärdering på projektets idéstadium. Etikutvärderingen publiceras därefter öppet i forumet, varpå övriga medarbetare och team bjuds in för att ge återkoppling och diskutera. Detta ger möjlighet till viktig feedback som utvecklarteamet har med sig i det fortsatta arbetet. I ett sista steg bjuds även allmänheten in till samma diskussion, och så fortsätter det under utvecklingsprojektets övriga faser. Det är viktigt att innehållet i den etiska utvärderingen är på en icke-teknisk nivå språkligt, till skillnad från den tekniska dokumentationen. Frågorna vi ställer syftar till att identifiera etiska risker både på individ- och samhällsnivå. Målet är att reflektera över vad som är rätt och fel, gott och ont, i syfte att skydda människan som är teknikens föremål. Vilka frågor är det då som ställs i en etisk utvärdering? Två exempel är: ”Vilka risker skulle tjänsten/produkten kunna medföra på individ- respektive samhällsnivå?” och ”Vilka justeringar behövs (om några) för att motverka de identifierade riskerna? Alternativt varför behövs inga justeringar?” Poängen är alltså att de identifierade etiska riskerna också hanteras.
Som statlig myndighet följer Arbetsförmedlingen redan de krav som ställs på oss i form av öppenhet och insyn genom Offentlighetsprincipen. Men vi vill genom det här arbetet ta transparensen till en ny nivå där ”open by default” även betonar förståelse och medskapande för en bredare publik utanför utvecklarcommunityn. Vår målgrupp är ju i slutändan medborgarna, både som användare och intressenter. Därför är en annan viktig aspekt av arbetet med dataetik att informationen om de öppna dataseten och de digitala tjänsterna är så utförlig som möjligt. Forskarna Catherine D’Ignazio och Lauren Klein understryker hur viktig kontexten är för ett datasets användbarhet och för riskminimeringen.
“Until we invest as much in providing (and maintaining) context as we do in publishing data, we will end up with public information resources that are subpar at best and dangerous at worst.“ (4)
Forskarna menar till och med att datakvalitet är detsamma som metadatakvalitet. Den ensidiga prioriteringen av att ”öppna upp” som ledsagat öppna data- och Open Government-rörelsen menar de är riskfylld. (5) Resultatet av den nedprioriteringen har kallats zombiedata, vilket syftar på data som publicerats med knapp kontext och med oklart syfte. (6) De menar att begreppet rådata är en missuppfattning eftersom data redan är färdiglagad som ett resultat av ”en komplex mängd sociala, politiska och historiska omständigheter”. (7)
I linje med dessa insikter strävar vi efter att den data vi publicerar ska vara så kontextrik som möjligt. Utöver de krav på metadata som ställs genom metadataspecifikationen DCAT-AP-SE behövs tydlig information om datasetens proveniens, syfte, avgränsningar, insamlingsmetoder samt hur de kvalitetssäkrats. I den nya AI-förordningen kommer det också ställas liknande krav på kvalitativa dataset för AI-system inom högriskområden såsom rekrytering. Dessutom krävs transparens, bland annat genom detaljerad dokumentation av systemet, ett system för riskbedömning- och minimering, samt tydlig information för den som ska använda systemet, dess syfte och begränsningar.
Dessa kontextuella parametrar i synnerhet och arbetet med etik i allmänhet tas inte fram i en handvändning utan kräver dedikerat arbete och tid. Men resultatet kommer löna sig. I form av tillförlitliga kvalitativa dataset och produkter som kan bidra till hållbar innovation och tillväxt.
Källor: