Oprydning i Gamle Dokumenter – Del 2

Oprydning i backlogs af dokumenter

Dokumenter, der ikke er styr på - ofte på fællesdrev og i mailbokse - har ikke den værdi de bør have for organisationen. I værste fald skader de ligefrem, som hvis det er personhenførbare oplysninger, der viser sig at ligge ulovligt og overflødigt på et drev. Hvordan tager man livtag med at få styr på masserne?

Del 2 - Dokumentkonvertering og OCR behandling

OCR

I artikel 1 i serien her argumenterede vi for, at det er smart at kunne søge i sine dokumenter, når man skal rydde op. Men hvad gør man så ved en fil, der ikke er søgbar? Og hvad var det nu med de der PDF filer - er de søgbare eller hvad?

Med hensyn til PDF filer er svaret  "det kommer an på..". En PDF fil kan være med søgbar tekst eller den kan være uden. Er den uden, kan den OCR behandles på lige fod med andre filformater, som beskrevet nedenfor. Men hvis man ikke ved om en PDF fil er søgbar eller ej, er en nem måde at set det på, ganske enkelt at se om man kan markere tekst. Hvis man kan, er den søgbar.

 

Hvis man skanner et dokument får man i første omgang en billedfil dannet af skanneren. Med software kan man så - og ofte er det software en del af pakken man får med skanneren - lede i billefilen efter bogstaver, genkende dem og dermed danne et tekstlag i filen, så den nu er søgbar. Den process hedder Optical Character Recognition (OCR) og er en teknologi, som har været til rådighed utroligt længe. Nu fås OCR værktøjer, som kan klare det mest utrolige med en meget høj præcision, fx genkende håndskrift, genkende ord selvom de er skrevet både lodret og vandret på papiret og genkende ord i dårlig kvalitet skanninger. 

Har man allerede en stor, dyr multifunktionsmaskine (kopi/skan/print) så har man med stor sikkerhed en sådant software til sin rådighed. Måske kræver en opringning til kopimaksineleverandøren at få sat det op, så man også kan få kørt filer fra ens fællesdrev  igennem OCR behandlingen. Sidst en kunde ville dette kostede det vist 5.000 kr og så var de kørende. Men der er stor forskel på kvaliteten af OCR software og det er ikke sikkert at den software, der er indlejret i kopimaskinen lever op til behovene. Så er der både online services og rigtigt fine løsninger at få til lokalt brug. De løsninger vi selv bruger de fleste steder er reelt dokumentkonverteringssløsninger (se venstre spalte), hvori OCR er indlejret. 

 

Dokumentkonvertering

Hvis dokumenter ikke er søgbare, er det en god ide at konvertere dokumenter til et søgbart format. Men derudover, hvad får man ud af at konvertere dokumenter til søgbart PDF i forbindelse med sin oprydning?

Hvis man rydder op manuelt klikker man sig typisk ned igennem filerne og (som beskrevet i del 1 af denne artikelserie) kan man se et preview af dokumentets forside i Windows' preview pane. For nogle filtyper går det godt og hurtigt - for andre går det slet ikke. Hvis alle dokumenter er konverterede til fx PDF kører det godt og ensartet, og skal man åbne en fil for at se mere, er det den samme applikation der skal brugers hele tiden (nemlig fx Adobe reader) og den kan så bare stå åben. Det sparer enormt meget tid ikke at skulle åbne word for en fil, excel for en anden osv.

Men vigtigst er nok, det man rydder op i - og senere afleverer i sit arkiv - er i et format, som rent faktisk kan læses. Vi har flere gange set kunder have lavet et kæmpestort arbejde med at arkivere, men 15 år senere står de så med filer, som nu ikke længere kan tilgås fordi softwaren ikke længere er til rådighed eller på medier, som ikke længere kan åbnes. Det er så utroligt ærgerligt.

For nogle er en god løsning at konvertere alting til PDF evt PDF/a. For andre er en god løsning konstant at "opkonvertere" dokumenterne, fx have konverteringsmotoren konvertere gamle Wordfiler en version op hver gang virksomheden skifter Word version.

Pointen var altså to ting, nemlig 1) at det bliver praktisk nemmere at rydde manuelt op, hvis dokumenterne er konverterede til et ensartet format og 2) at der er en langsigtet pointe i at konvertere dokumenter, så det er altså ikke kun af hensyn til oprydningen, at vi foreslår at overveje en dokumentkonvertering.

If you liked this post, you are most welcome to share it.