Lediga jobb publiceras sedan länge främst digitalt på olika webbsajter. I Arbetsförmedlingens dataset som samlar alla platsannonser sedan 2006 finns idag 6,9 miljoner annonser (1). Storleken på en enskild annons kan variera mellan ett tiotal ord och närmare 1000. Dessa ord ska både locka och vara en saklig beskrivning av arbetsplatsen, organisationen och tjänsten. Därtill innehåller annonserna oftast en krav- och önskelista på meriter, kvalifikationer och kompetenser den sökande ska ha. De samlade platsannonserna anses utgöra en unik källa för att få insyn i trender och behov på arbetsmarknaden. Intresset för denna typ av data om arbetsmarknaden har knappast minskat med de senaste årens framsteg inom AI-utvecklingen. Det finns en efterfrågan på datadrivna svar på kompetensförsörjning, matchning och statistik. De historiska platsannonserna har fått uppmärksamhet av både forskare, statistiker och matchningsaktörer. Grundfrågan är hur platsannonsdata kan förbättra arbetsmarknadens funktionssätt. Och minst lika viktigt: Hur kan vi säkerställa att platsannonsdata inte försämrar arbetsmarknadens funktionssätt?
I dag finns betydande kunskap om annonsers språkliga innehåll, såsom vilka kompetenser och förmågor som är relevanta i förhållande till den utlysta tjänsten. Med hjälp av NLP (Natural Language Processing), maskininlärning och AI har dessa bitar kunnat extraheras. Metoden bygger på träningsdata som ursprungligen kodats av arbetsförmedlare och sedan tränats vidare med hjälp av maskininlärning.
Det finns idag också betydande kunskap om hur annonsernas utformning och språkliga innehåll kan ha oönskade effekter på kandidatpoolen. I studier har det framkommit att språket i en annons påverkar hur benägna eller obenägna kvinnor är att söka en tjänst (2). Det är till exempel mindre troligt att kvinnor (jämfört med män) söker en tjänst om de upplever att kravprofilen är för hög. Det finns även specifika ord som har en avstötande effekt på kvinnor och det finns studier som undersökt hur annonsens uttryck av arbetsgivarens arbete med inkludering och rättvisefrågor påverkar benägenheten hos olika minoritetsgrupper att söka den utlysta tjänsten (3). Krav på flexibilitet gör också att färre kvinnor söker en tjänst trots att de, om de söker, har lika stor chans att få tjänsten. Annonstexten har med andra ord effekt på utfallet. I studien Evidence that gendered wording in job advertisements exists and sustains gender inequality (2011) menar författarna att de maskulint kodade orden och fraserna innebär en implicit bias eller diskriminerande effekt till skillnad från direkt diskriminerande uttryck (4).
I Sverige finns idag sju diskrimineringsgrunder. Platsannonser som ska publiceras på Platsbanken kontrolleras för otillåtet missgynnande av grupp. Det som dock inte fångas i annonskollen är de delar som kan ge upphov till indirekt diskriminering. På aggregerad nivå innebär det att den ojämlikhet som existerar på arbetsmarknaden bibehålls, vilket både får ekonomiska konsekvenser för olika grupper i samhället, samt går emot Arbetsförmedlingens instruktion om att ”inom sitt verksamhetsområde främja mångfald och jämställdhet”.
En studie av diskriminering i tyska platsannonser fastställde att även om nästan inga av de undersökta annonserna var direkt diskriminerande innehöll en femtedel av dem risk för diskriminering (5). Med ”risk för diskriminering” menade de att annonserna innehöll uttryck eller inslag som kunde göra att vissa grupper kunde känna sig exkluderade. I dag finns flera tillgängliga verktyg som automatiskt detekterar ord och fraser som kan medföra indirekt diskriminering och ger förslag på neutrala ersättare. De annonser som finns i datasetet Historiska annonser är inte genomlysta med något sådant verktyg. Att det är eftersträvansvärt är inte heller självklart men datakonsumenten måste vara medveten om att den implicita biasen finns och att den kan ha effekter på användandet.
Rapport: Möjligheter och begränsningar med Historiska annonser - vägar framåt för kvalitetssäkrade data