Hoppa till innehåll

Taxonomi och begreppsstruktur

Utvecklingsprojekt för att testa olika möjligheter till en sammanhållen begreppsstruktur inom utbildnings- och arbetsmarknadsområdet

Alla pratar om livslångt lärande och kompetensförsörjning. Utvecklingsprojektet lägger ett stort fokus på att utveckla ett gemensamt språk i en sammanhållen datainfrastruktur. Lärandet blir mer enkelt, begripligt, och lättillgängligt. En viktig förutsättning för kompetensutveckling på en hållbar arbetsmarknad i konstant förändring.

Bakgrund

I nuläget omfattar projektet fyra stora riktningar som är sammankopplande och bygger på tidigare projekt och API:er. Syftet med utvecklingsprojektet är att utforska sätt att länka samman jobb, utbildning och kompetens. I dagsläget finns en begreppsstruktur som benämns taxonomin och som kommer bidra till vidareutveckling av begreppsstrukturen för att bättre möta behovet av livslångt lärande. Inriktningarna innebär att:

  1. Berika ordförråden i taxonomin med exempelvis nya yrken, kompetenser, synonyma begrepp och sökbegrepp som ska kunna användas i jobbannonser, för CV-innehåll och utbildningar
  2. Bidra till en bättre matchning mellan efterfrågade jobb och yrkes- och högskoleutbildningar
  3. Kartlägga hur befintliga utbildningar kan matcha behovet av arbetskraft och kompetenser på arbetsmarknaden
  4. Titta närmare på hur man kan vidareutveckla en gemensam struktur för kompetenser, kvalifikationer och sökbegrepp

Den utforskande fasen

API:et Jobtech Taxonomy
På en arbetsmarknad i snabb förändring dyker nya yrken och kompetenser upp medan andra försvinner. Syftet med API:et Jobtech Taxonomy är att samla, strukturera och tillgängliggöra begrepp som används på den svenska arbetsmarknaden, bl.a. yrken och kompetenser. Innehållet i taxonomin uppdateras kontinuerligt och är kvalitetssäkrad i samarbete med branscherna. Med våra tekniska lösningar och standarder för språk slipper man tidskrävande manuell hantering och uppdatering och får mer av en träffsäkrare matchning.

Innehållet i Jobtech Taxonomy utökas och förfinas kontinuerligt där man kan hitta bl.a. uppdaterad information om övriga a-kassorna, tusentals nya sökbegrepp, samt kopplingar till den EU-gemensamma yrkes- och kompetensklassificeringen ESCO. Trygghetsrådet (TRR) arbetar med att koppla sig till nya taxonomin. TRR är en omställnings- och arbetslivsaktör som bidrar till lärande och rörlighet på svensk arbetsmarknad.

Begreppsigenkänning och taxonomin
För att taxonomin ska bli användbar för att matcha arbetstagare mot utbildningar samt att göra utbildningar sökbara vill vi koppla begreppen i taxonomin mot utbildningsbeskrivningar där dessa begrepp förekommer.

Ett område som utvecklingsprojektet undersöker är så kallad begreppsigenkänning som innebär att en text av intresse analyseras maskinellt så att ord eller delar av meningar ur texten länkas mot begrepp i taxonomin. I litteraturen är detta känt som ”semantic annotation” eller ”concept recognition” och används bland annat inom biomedicin. De texter som kan vara intressanta att analysera på detta sätt är utbildningsbeskrivningar med kursplaner. Utöver att känna igen begrepp i en text strävar projektet även till att bestämma sammanhanget där varje begrepp förekommer: är begreppet ett förkunskapskrav, läromål eller någonting annat?

Det finns flera användningsområden för begreppsigenkänningsanalyser av utbildningsbeskrivningar. Ett exempel är en arbetssökande som inte har alla yrkesfärdigheter som behövs för ett visst jobb. Om de färdigheter som saknas motsvaras av begrepp ur taxonomin kan man hitta de utbildningsbeskrivningar som i störst utsträckning anger dessa begrepp som lärandemål. Det blir också lätt att hitta liknande utbildningar baserat på till vilken grad taxonomibegreppen för två olika utbildningar överlappar. Genom att representera utbildningsbeskrivningar med hjälp av taxonomibegrepp med precisa definitioner fångar man betydelsen av texten på ett sätt som underlättar sökbarhet och matchning.

Teknik för begreppsigenkänning kan grovt delas in i två grupper:

  1. metoder som bygger på maskininlärning
  2. metoder som bygger på matchning av textsträngar

Metoder som baseras på maskininlärning kan vara effektiva förutsatt att de tränas på tillräckligt mycket data men att förbereda dessa data är arbetskrävande. Därför är även metoder baserat på direkt jämförelse av textsträngar intressanta eftersom dessa inte kräver träningsdata för att fungera. Särskilt intressant för maskininlärning är BERT och Sentence-BERT som är algoritmer för att numeriskt koda innebörden av skriven text. Värt att notera är att BERT tidigare har använts i samband för att skapa översättningsnycklar mellan begreppsstrukturer för arbetsmarknaden. Kungliga biblioteket har även offentliggjort färdigtränade BERT-modeller för svenska språket.

Utvecklingsprojektet undersöker nu olika metoder för att känna igen begrepp i utbildningsbeskrivningar så att de kan göras sök- och matchningsbara. Projektet tittar också på matematiska representationer av taxonomin för att ytterligare underlätta sökning, matchning och indexering av begrepp. Utöver det byggs verktyg för att kunna mäta hur effektiv en metod för begreppsigenkänning är så att varje metod kan utvärderas.

Pilotprojekt

Mikromeriter och EU-samarbete

Utvecklingsprojektet deltar tillsammans med Myndigheten för yrkeshögskolan (MYH) och Sveriges forskningsinstitut (RISE) i framtagandet av ett förslag för ett svenskt ramverk för mikromeriter. Fortsättningsvis kommer fler myndigheter och branscher att inkluderas i arbetet. Tillsammans följer vi det arbete som pågår i EU i framtagandet av ett europeiskt ramverk. En mikromerit är ett erkänt bevis på de lärandemål som en elev har fått efter en kort inlärningserfarenhet. Genom att certifiera ett brett utbud av inlärningsupplevelser (inklusive yrkesutbildning, högre utbildning, vuxenutbildning, arbetslivserfarenhet och frivilliga aktiviteter), kan mikromeriter vara byggstenar för livslångt lärande, vilket gör det möjligt för individer att utbilda sig, omskola sig, ha tillgång till vidare lärande och förbättra sin anställbarhet. Mikromeriter är potentiellt ett sätt att hantera klyftan mellan utbud och efterfrågan på kompetens på en föränderlig arbetsmarknad och erbjuda flexibla och modullära inlärningsvägar.

Utbildningsdata från Myndigheten för yrkeshögskolan och Skolverket
Arbetet är i en inledande fas där man tittar på vilken utbildningsdata som finns från MYH och Skolverket för att kartlägga vilka utbildningar som kan matcha behovet på arbetsmarknaden, samt vilka av dem leder till jobb i praktiken. Målet är att all tillgängliga utbildningsdata ska användas stegvis för att kunna matcha begrepp i utbildningar och kopplas till taxonomin.

Sökbegrepp, kvalifikationer och kompetenser
Även om det idag finns mycket arbete gjort med att ta fram och kvalitetssäkra begrepp som används i arbetsmarknadens digitala tjänster så saknas en gedigen struktur för att beskriva kompetenser och hur de förhåller sig till det livslånga lärandets olika komponenter, däribland utbildningar och kvalifikationer. Därför pågår ett arbete som i ett första steg syftar till att utforska hur nuvarande datamängder inom taxonomin lämpar sig för att beskriva de olika komponenterna och hur ett framtida läge skulle kunna se ut. Vi kommer därför att delta i ett utforskande pilotprojekt för att kartlägga ESCOs kompetenser till formella kvalifikationer (exempelvis yrkeshögskoleutbildning) och icke-formella (dvs sådana som finns utanför det formella utbildningssystemet men som ändå erhålls under strukturerad form, exempelvis yrkesbevis).

Teknik
Inom ramen för arbetet med en digital infrastruktur för livslångt lärande kommer utvecklingsprojektet att dra nytta av nya landvinningar inom språkbehandling som har gjorts de senaste åren. Det gäller bland annat språkmodeller baserade på maskininlärning och så kallad ”deep learning” för att analysera och förstå skriven text. I många fall är det möjligt att använda en befintlig generell språkmodell som anpassas för att bli användbar för ett specifikt ändamål. För att bygga och anpassa språkmodeller behövs ofta stora mängder data: ett redaktionellt team inom utvecklingsprojektet kvalitetssäkrar och tar fram data som kan användas med dessa modeller. Dessa data kan sedan göras tillgängliga för andra aktörer att använda för att bygga tjänster som främjar ett livslångt lärande.

Globala målen

Projektet bidrar till FN:s hållbarhetsmål: 8.6, 17.6, 17.18

Roger Bacon, engelsk vetenskapsteoretiker:

"Kunskap om språk är dörren till visdom."

Projektstart
Juni 2021
Projektslut
Januari 2024