Indoor storage details in a manufacturing enterprise, black shelves with white office boxes.

Case: Gennemgang af stor konvertering

Casen er baseret på en konvertering af dokumenter til Rigsarkivet. Hvordan kan noget så enkelt være et speciale for erfarne folk som os? Artiklen her viser, hvorfor du ikke må undervurdere opgaven.

·

Konvertering

Vi konverterer dokumenter – også for eksempel dem. som skal til Rigsarkivet. Men at konvertere dokumenter er egentlig blot at åbne filen og udskrive den – ikke på papir, men i det ønskede filformat. Hvordan kan noget så enkelt være et speciale for erfarne folk som os? The devil is in the detail.

Konvertering betyder blot, at et dokuments indhold lægges i et andet filformat. I Word kan man vælger Save as PDF – her laves der en konvertering til PDF. Hvordan kan noget så enkelt være et speciale for erfarne folk som os? The devil is in the detail, og deri ligger en væsentlig del af forklaringen. En anden del forklaringen ligger i voluminer. Det er typisk hundredetusinder eller millioner af filer, der handler om. Her er et indblik i nogle af de detaljer, som overrasker, hvis man ikke har prøvet det før.

Rigsarkivet

Det jeg fortæller om her er baseret på erfaringer fra et antal konverteringer til Rigsarkivet, men det er generelle problemstillinger, som egentlig intet har med Rigsarkivet at gøre. Det er alment gyldige betragtninger om alle typer af dokumentkonvertering. Aflevering til Rigarkivet er bare et rigtigt godt og illustrativt eksempel. Rigsarkivet har nemlig tænkt sig om og opstillet en lang række krav, som det alt andet lige give mening at alle arkiver lever op til. Valget er nøgleformat (TIFF) er dog ikke det valg, man har taget internationalt – pdf evt PDF/a  er typisk valgt.

Afleveringsformater - TIFF er ikke bare TIFF

Dokumenter kan indeholde blot sort/hvid tekst, men det kan lige så vel være et farverigt dokument med detaljerede fotografier. Rigsarkivet ønsker, at man afleverer dokumenterne, så de gengiver originalen tilstrækkeligt godt, men samtidigt ikke fylder mere end allerhøjest nødvendigt. Det kræver balance. Derfor skal et sort/hvidt tekstdokument afleveres i form af en TIFF 1-bit fil, mens et farverigt dokument skal afleveres som en TIFF 24-bit fil. Hvor farverigt et dokument er, repræsenteres ved det, der kaldes dokumentets bitdybde, og det skal således for hvert enkelt dokument gøres klart, hvilken bitdybde dokumentet har, for at kunne vælge det rette format.

Andre formater

Det kan ske, at TIFF ikke er det optimale format. Helt åbenlyst er behovet et andet for lydfiler, videoer og tekniske tegninger, men også meget detaljerede billeder, må gengives anderledes, hvis detaljeringen er betydningsbærende, og i disse tilfælde har Rigsarkivet specificeret, hvad man skal gøre.

Komprimering

Udover at filerne skal konverteres til afleveringsformat, skal de komprimeres således at den fylder mindst muligt – uden at tabe information. Igen skal man finde netop den rigtige balance og vælge netop den rigtige komprimering.

Datatab

Udover komprimering, er der et mere subtilt datatab, man skal være på vagt overfor. Et PDF dokument kan have kommentarer i form af gule post-its, som kan dække noget tekst, således at man efter gengivelsen ikke kan komme til at se, hvad der står under den gule seddel. Et regneark kan have indhold i en celle, der klippes af, fordi det overgår kolonnens bredde. I en præsentation kan nogle sider være skjulte, og der kan gemme sig information af betydning i noterne. Der kan for den sags skyld også være skjult tekst i et dokument, skjulte kolonner i et regneark eller noter i form af revisionskommentarer. Den slags må man opdage, og forholde sig til i sin konvertering, ellers er afleveringen/arkiveringen ukomplet.

Indlejrede objekter

Mails er kendt for at have vedhæftede filer, men også almindlige kontordokumenter kan have indlejrede objekter. Disse objekter skal naturligvis også pakkes ud og konverteres med, idet de også indeholder information relevant for sammenhængen. Selv når vi selv tror, vi snart må have set alt, dukker der ind imellem noget alligevel noget op, som vi ikke er stødt på før, og derfra må vi udvikle endnu en metode til samlingen af løsninger.

Den store udfordring: Regnearket

Regnearket er og bliver den største vinder, når det drejer sig om at støde på nye komplicerede, problemer. Igen, konvertering er egentlig blot at udskrive et dokument. Hvor ofte sker det, at et udskrevet regneark gør, som man vil have det til? Det kan være at sideopdelingen skærer noget fra, eller der kommer 200 sider med en enkelt kolonner per side, hvilket ikke giver det bedste udgangspunkt for, at tyde dokumentet – læsbarheden er ganske enkelt for dårlig.

I en anden fil er der zoomet ud, således at udskriften af et enormt regneark presses ned på en side – igen ulæseligt. Sidste eksempel – vi kan blive ved – er situationen med en formel, som er kopieret ind i en hel række, og selvom regnearket reelt kun er brugt i de første 10 kolonner, så er der data i samtlige kolonner, som derfor udskrives, men mindre man aktivt forhindrer det. Til information kan vi dele, at der kan være 16.384 kolonner og 1.048.576 rækker i et regneark – det kan give en meget stor udskrift. Kort fortalt SKAL en regneark have defineret et fornuftigt udskriftsfelt pr ark, så kan man printe – og dermed konvertere – fint.

Filer, der fejler

I bunker af den mængde filer, som her diskuteres, vil der findes korrupte filer – filer, hvor filens extension (.PDF, .doc, .xlsx osv) ikke svarer til det reelle indhold – der vil være password beskyttede filer, som ikke kan åbnes af andre en indehaveren af passwordet, og der kan endda være virusbefængte filer. Der kan også være filer i formater, som er udgået for adskillige år siden (fx WordPerfect 4.2).

Efterhånden kan der gøres en stor del ved mange af disse uforudsete udfordringer, men i sidste ende er en korrupt fil uhåndterbar og vi hacker heller ikke i passwordbeskyttede regneark fra økonomiafdelingen, for at få konverteret det. Derfor er det essentielt at have en proces, som sikrer, at det, der falder ud og fejler opsamles og håndteres. Og det gælder for almindelig arkivering såvel som for når det er Rigsarkivet, det gælder.

Konvertering - erfaringstungt


Det er i bund og grund en relativt enkel proces at konvertere dokumenter. Der er blot en stor del praktiske problemer kombineret med en enorm mængde filer. Vi har flere velafprøvede kommercielle konverteringsværktøjer, som vi – afhængig af situationen – vil vælge imellem og vurdere hvilket vil fungere bedst, som motor til en specifik konverteringsopgave. Værktøjerne er fra vores hånd sat op, således at de imødekommer kravene fra Rigsarkivet i videst muligt omfang. Desuden har vi genemme årene opbygget en enorm erfaring – både med værktøjer og med de praktiske problemer i filerne. Lige så mange konverteringsproblemer vi er stødt på, ligeså mange løsninger og tricks har vi med os.

Al denne erfaring kan genbruges og bliver genbrugt til at sætte konvertering op til inhouse arkiver.