Klassifikation med AI

AI er hot – meget hot. For vores fagområde betyder det især klassifikation med AI. Jeg har nu fået lejlighed til at se nærmere på mulighederne. Konklusionen er meget enkel: Hold da op, hvor man kan en masse. Nu skal vi lære at bruge klassifikation med AI på en fornuftig måde.

Hvad er AI?

AI betyder artificial intelligens, eller på dansk kunstig intelligens, og er en disciplin indenfor datalogien, som handler om at få computere til at arbejde eller opføre sig som mennesker.

I min forståelse betyder AI, at der nu findes algoritmer, som tillader at en computer kan lære noget – machine learning.

Et meget omtalt perspektiv – som giver masser af stof til science fiction fans – er den type machine learning, der kaldes deep learning. Deep learning er at en computer trænes i et fagområde ved at blive født en stor masse faglitteratur og derefter vil være i stand til at bygge videre på den viden i forholdet til nye oplysninger. Computerens store regnekraft gør den i stand til at se sammenhænge, som vi mennesker måske ikke kan se, og det giver et enormt potentiale i den type løsninger, og det er vanvittigt komplekst.

Men lad mig zoome lidt ind på at bruge det til klassifikation.

Klassifikation med AI

Til klassifikation af dokumenter har vi ikke brug for at computeren kan fortolke indholdet og forstå noget om et fagområde udfra indholdet. Men vi har brug for at den kan se, at det er en rapport, og at der er en tilsvarende rapport herovre. Så vi skal ikke træne vores AI motor i alt om hjerte-karsygdomme for, at den kan klassificere rapporter om hjerte-karsygdomme. Men vi skal træne den i at vide, at her hos os er dette en rapport og dette en samtykkeerklæring osv.

NLP

Lige et begreb mere. Forudsætningen for at en computer kan “forstå” skrevet tekst er Natural Language Processing (NLP), som altså går ud på at en computer kan forstå konteksten i en tekst. Hvis jeg siger “Hun tog bussen til Rønne”, så kan de fleste mennesker godt gætte, at jeg taler om at tage en bus til en by. Computeren kan – vha. NLP – også godt forstå af konteksten, at Rønne må være en geografisk lokation. Før vi havde NLP kunne computeren muligvis have slået op i en ordbog, hvis vi havde stillet en til dens rådighed, og fundet ordet Rønne, men ikke kunnet afgøre, om der var tale om byen eller et forfaldent hus (en rønne). Nu har vi ikke brug for noget at slå op i – konteksten alene afslører hvad det er for et begreb. NLP- funktion er helt central i klassifikationsløsninger og kan specifikt udnyttes til at ekstrahere oplysninger af teksten. Disse kan derpå bruges som metadata på dokumentet.

Eksempler på klassifikation med AI

Den gode nyhed er at AI tools allerede er integreret i nogle af de dokumentsystemer, som er mere fremme i skoene. Nogle systemer stiller nogle ret gode forslag til metadata i en manuel upload. Så slipper man i visse – eller mange – situationer blot med at trykke OK fremfor at skulle udfylde metadata manuelt. Det er ikke til at se det, hvis man ikke lige ved det, men der kan være (er typisk) kunstig intelligens bag den funktion.

Et andet sted AI stikker sit ansigt frem er i genkendelse af billeder – eller objekter på billeder. Enkelte løsninger har denne funktion til rådighed nu, og kan blive udnyttet til upload af billeder, som med dokumenter ovenfor.

Jeg er sikker på at ovenstående kan bruges til en hel masse og at fantasien sætter grænsen for dets udnyttelse lige nu. Som eksempel har jeg set en demo, som udnyttede det til at kunne genkende objekter på billeder til at genkende ansigter på video. Demoen viste en fin tidslinje ud for hvert genkendt ansigt. Dermed var nemt at danne sig et overblik over, hvor pågældende ansigt optrådte i videoen. Et kreativt og perspektivrigt eksempel.

Oprydning med AI – nu skal vi lære at bruge det

Hvis der skal ryddes op på fællesdrevene eller mailboksene osv., er det ikke nok at have en kunstig intelligensmotor. Det er rigtigt vigtigt at motoren kan kan tilgå alle dokumenter og deres tekstindhold og har en forståelse for ens eller næsten-ens dokumenter.  Så vi har brug for at supplere AI motoren med klassiske discipliner som deduplikering og OCR behandling. (Se evt tidligere blogartikel som forklarer OCR og dubletter.) Det skal kunne ekstrahere tekst, identificere dubletter, danne overblik over dokumentmasserne, gruppere dokumenter som ligner hinanden og ekstrahere information til tagning.

Det findes – de første løsninger af denne art er der – og det er helt utroligt smart. Men det kan ikke trylle. Vi må stadig have en struktureret tilgang til en oprydningopgave, vide hvad vi vil klassificere, hvordan og hvorlænge det skal bevares osv. Men jeg tænker, at vi med denne type tools får mulighed for at arbejde lidt mere “bottom-up”, fordi sådan tools vil give os en konstant dybere indsigt i hvad vi har, efterhånden som vi arbejder os igennem oprydningen. Den indsigt kan spille op mod de tanker vi gør os om, hvad og hvordan vi vil klassificere. Helt nye måder at gå til de store klassifikationsopgaver åbner sig. Jeg glæder mig til at få det “op under neglene”.

Vibeke Bugge Kristiansen