Hvad går konvertering af dokumenter ud på?

Vi har hos Strator gjort det til et speciale at konvertere dokumenter fx til aflevering til Rigsarkivet, men at konvertere dokumenter er egentlig blot at åbne filen og udskrive den - ikke på papir, men i det ønskede filformat. Dette kendes fx fra Word, når vælger Save as PDF - her laves der en konvertering til PDF. Hvordan kan noget så enkelt være et speciale for erfarne folk som os? The devil is in the detail; Djævlen ligger i detaljen, og deri ligger en væsentlig del af forklaringen. En anden del forklaringen ligger i voluminer. Det er typisk hundredetusinder eller millioner af filer, der handler om. Her er et indblik i nogle af de detaljer, som overrasker, hvis man ikke har prøvet det før.

Det jeg fortæller om her er generelle problemstillinger, som egentlig intet har med Rigsarkviet at gøre. Det er alment gyldige betragtninger om alle typer af filkonvertering. Aflevering til Rigarkivet er bare et rigtigt godt og illustrativt eksempel. Rigsarkivet har et krav om, at få dokumenter afleveret i et bestemt format i en bestemt struktur. Det er lyder i sig selv ikke synderligt kompliceret. Men det viser sig jo - som i alle andre konverteringen at et format er ikke bare et format... Der er altid mere til historien. I eksemplet med Rigsarkivet er det ønskede format Tiff, men..

Afleveringsformater - TIFF er ikke bare TIFF

Dokumenter kan indeholde blot sort/hvid tekst, men det kan lige så vel være et farverigt dokument med detaljerede fotografier. Rigsarkivet ønsker, at man afleverer dokumenterne, så de gengiver originalen tilstrækkeligt godt, men samtidigt ikke fylder mere end allerhøjest nødvendigt. Det kræver balance. Derfor skal et sort/hvidt tekstdokument afleveres i form af en TIFF 1-bit fil, mens et farverigt dokument skal afleveres som en TIFF 24-bit fil. Hvor farverigt et dokument er, repræsenteres ved det, der kaldes dokumentets bitdybde, og det skal således for hvert enkelt dokument gøres klart, hvilken bitdybde dokumentet har, for at kunne vælge det rette format. 

Det kan ske, at TIFF ikke er det optimale format. Helt klart er behovet et andet for lydfiler, videoer og tekniske tegninger, men også meget detaljerede billeder, må gengives anderledes, hvis detaljeringen er betydningsbærende, og i disse tilfælde har Rigsarkivet specificeret, hvad man skal gøre. 

Udover at filerne skal konverteres til afleveringsformat, skal de komprimeres således at den fylder mindst muligt – uden at tabe information. Igen skal man finde netop den rigtige balance og vælge netop den rigtige komprimering.

Dokumenter, der driller - Datatab  

Når dokumentet konverteres, er det et krav, at data ikke tabes i processen. Her menes ikke risikoen for at glemme side 4, for det sker naturligvis ikke. Det er meget mere subtile datatab, man skal være på vagt overfor. Et PDF dokument kan have kommentarer i form af gule post-its, som kan dække noget tekst, således at man efter gengivelsen ikke kan komme til at se, hvad der står under den gule seddel.

Et regneark kan have indhold i en celle, der klippes af, fordi det overgår kolonnen bredde. I en præsentation kan nogle sider være skjulte, og der kan gemme sig information af betydning i noterne. Der kan for den sags skyld også være skjult tekst i et dokument, skjulte kolonner i et regneark eller noter i form af revisionskommentarer. Den slags må man opdage, ellers er afleveringen ukomplet.

Mails er kendt for at have vedhæftede filer, men også almindlige kontordokumenter kan have indlejrede objekter. Disse objekter skal naturligvis også pakkes ud og konverteres med, idet de også indeholder information relevant for sammenhængen. Selv når vi selv tror, vi snart må have set alt, dukker der ind imellem noget alligevel noget op, som vi ikke er stødt på før, og derfra må vi udvikle endnu en metode til samlingen af løsninger.

Den store udfordring - Regnearket

Regnearket er og forbliver den største vinder, når det drejer sig om at støde på nye komplicerede, problemer. Igen, konvertering er egentlig blot at udskrive et dokument. Hvor ofte sker det, at et udskrevet regneark gør, som man vil have det til? Det kan være at sideopdelingen skærer noget fra, eller der kommer 200 sider med en enkelt kolonner per side, hvilket ikke giver det bedste udgangspunkt for, at tyde dokumentet – læsbarheden er ganske enkelt for dårlig.

I en anden fil er der zoomet ud, således at udskriften af et enormt regneark presses ned på en side – igen ulæseligt. Sidste eksempel – vi kan blive ved – er situationen med en formel, som er kopieret ind i en hel række, og selvom regnearket reelt kun er brugt i de første 10 kolonner, så er der data i samtlige kolonner, som derfor udskrives, men mindre man aktivt forhindrer det. Til information kan vi dele, at der kan være 16.384 kolonner og 1.048.576 rækker i et regneark – det kan give en meget stor udskrift.

Filer, der fejler

I bunker af den mængde filer, som her diskuteres, vil der findes korrupte filer – filer, hvor filens extension (.PDF, .doc, .xlsx osv) ikke svarer til det reelle indhold – der vil være password beskyttede filer, som ikke kan åbnes af andre en indehaveren af passwordet, og der kan endda være virusbefængte filer. Der kan også være filer i formater, som er udgået for adskillige år siden (fx WordPerfect 4.2).

Efterhånden kan der gøres en stor del ved mange af disse uforudsete udfordringer, men i sidste ende er en korrupt fil uhåndterbar og vi  hackes ikke i en virksomheds passwordbeskyttede regneark fra økonomiafdelingen, for at få konverteret det. Derfor er det essentielt at have en proces, som sikrer, at det, der falder ud og fejler opsamles og håndteres. 

Konvertering - erfaringstungt

Det er i bund og grund en relativt enkel proces at konvertere dokumenter. Der er blot en stor del praktiske problemer kombineret med en enorm mængde filer. Vi har flere velafprøvede kommercielle konverteringsværktøjer, som vi - afhængig af situationen - vil vælge imellem og vurdere hvilket vil fungere bedst, som motor til en specifik konverteringsopgave. Værktøjerne er fra vores hånd sat op, således at de imødekommer kravene fra Rigsarkivet i videst muligt omfang. Desuden har vi genemme årene opbygget en enorm erfaring - både med værktøjer og med de praktiske problemer i filerne. Lige så mange konverteringsproblemer vi er stødt på, ligeså mange løsninger og tricks har vi med os.

Man kan også bruge konvertering af dokumenter aktivt til at vedligeholde sit arkiv, så dokumenter ikke bliver utilgængelige med tiden.

If you liked this post, you are most welcome to share it.