Noen av de 14 norskelevene som jobbet sommeren 2016 med å lære IBM sin software norsk. Foto: Odd Richard Valmot, Teknisk Ukeblad.

Lærer Watson norsk

Sommeren 2016 hadde 14 elever ved Ullern en litt uvanlig sommerjobb: På vegne av IBM begynte de arbeidet med å lære supersoftwaren Watson å forstå norsk. Watson kan i framtiden bli en viktig ressurs for å diagnostisere og behandle kreftpasienter. 

Fakta

Watson:

  • Watson er navnet på IBMs kognitive teknologier, som er basert på maskinlæringsalgoritmer, kunstig intelligens og maskinlæring
  • Watson består av komponenter som forstår, vurderer og lærer basert på store mengder data
  • Watson forstår naturlig språk i tekst og tale og snakker flere språk
  • Watsonteknologien består av mer enn 60 ulike teknologier som kan integreres med tradisjonelle analyse- og dataløsninger.
  • Når Watson-løsninger benyttes på nye fagområder blir de ikke programmert, men går igjennom opplæring av fageksperter

 

Kilde: Wikipedia

IBM er et av medlemmene til Oslo Cancer Cluster. Teknologibedriften har lagt deler av sin innovasjonsvirksomhet knyttet til softwaren Watson til Oslo Cancer Cluster Inkubator.

 

Nedenfor kan du lese en redigert versjon av en artikkel fra Teknisk Ukeblad skrevet av Odd Richard Valmot om samarbeidet mellom Ullern og IBM:

 

Sommeren 2016 bidro elever ved Ullern videregående med å få Watson til å forstå norsk språk. I første omgang med å lese norsk. Det vil norske kreftforskere og kreftpasienter få glede av.

Folk i IBM har gjort litt selv og læringsmodulen i Watson-systemet er fôret med den norske ordboken. Men det holder ikke med å pugge en ordbok, selv om den i Watsons tilfelle sitter spikret 100 prosent.

For å forstå hva det snakkes om må Watson skjønne kontekst også. Mange ord kan være både et substantiv og et verb. Det kommer an på konteksten.

Ordet leke er et godt eksempel på at det ikke holder med et oppslag i ordboka. Skal den bli flinkere til å forstå norsk må den på skolebenken, og det er her elevene skal rettlede det revolusjonerende datasystemet slik at det kan hjelpe norske pasienter.

– Vi ser på et stort antall setninger i Excel som Watson allerede har lest og prøvd å forstå. Programmet har merket hva det mener er substantiv, verb, adjektiv, pronomen og slikt – og som oftest har maskinen truffet riktig. Vår jobb er å være sensorer og sjekke om Watson har rett eller feil. Alle feil blir matet tilbake, slik at Watson kan lære og forbedre seg, sier Marie Wahlstrøm.

Hun valgte Ullern på grunn av realfagsundervisningen og synes det er litt av en utfordring for en 17-åring å få være med på å trene et datasystem i norsk.

 

Dr. Watson

IBM datasystem ble verdensberømt i 2011 da det slo de to amerikanske mesterne i kunnskapskonkurransen Jeopardy.

Det var først og fremst et PR-stunt, for IBM hadde ikke bygget en spillmaskin. De hadde bygget et system som kunne absorbere enorme kunnskapsmengder og se mønstre som mennesker knapt kunne drømme om.

Medisin, og spesielt kreftdiagnose og terapiforslag, var en av de første praktiske anvendelsene som nå brukes i USA og en rekke andre land.

Nå skal Watson etableres i Norge, og da må den engelskspråklige maskinen lære seg å lese norsk.

 

Norden er unikt

IBM er interessert i Norge av flere årsaker. De nordiske landene er unike i måten de har data om kreft hos alle pasienter tilbake til 50-tallet.

Norge startet opp med slik registrering i 1951. I tillegg har Norge et svært godt miljø innen kreftforskning, og mange nye bedrifter er etablert her.

– Dette er første gangen IBM har brukt skoleungdom til denne typen oppgaver. Her baserer vi oss på elevene for å få på plass bredden i det norske språket. Vi benytter tekstfiler fra Språkbanken som Nasjonalbiblioteket har tilgjengeliggjort. De er åpent tilgjengelige, og dekker den språklige bredden vi trenger.

– Det norske språket er en utfordring fordi vi i motsetning til på engelsk bruker så mange sammensatte ord. Men innen medisin holder det ikke med generell norsk. For å få Watson til å skjønne medisinsk terminologi trenger vi også leger for å hjelpe oss. Innen det medisinskfaglige språket, og spesielt på kreftområdet, får vi hjelp fra all den faglige språkkunnskapen som er tilgjengelig for Watson. Her er det gjort mye arbeid i USA og andre land, og mye av denne terminologien er internasjonal, sier IT-arkitekt i IBM og ansvarlig for å lære Watson å forstå norsk, Pål Backe.

Når Watson har bygget opp i en norskforståelse på mer enn 95 prosent er den i stand til å analysere ustrukturert tekst.

Da kan man begynne jobben med å mate systemet med store mengder medisinsk litteratur, journaler og mye annet.

 

Spesiell plassering

– Rollen som norsklærere er bare en av flere oppgaver elever har hatt sammen med Oslo Cancer Cluster, sier assisterende rektor Esther Eriksen.

Ifølge henne er den samlokaliseringen de har med et sykehus og et forskningsmiljø så langt de vet unik i verden. De utfører prosjekter sammen og de spiser i samme kantine.

– Vi føler at dette er mer enn en vanlig skole, sier skoleelev Knut Ervik.

– Når vi kommer inn i kantina her så oppfører vi oss nok bedre enn ved andre skoler. Det er jo mye voksne og kompetente folk her, legger Thomas Solem til.