Oprydning i Gamle Dokumenter – Del 3

Oprydning i backlogs af dokumenter

Dokumenter, der ikke er styr på - ofte på fællesdrev og i mailbokse - har ikke den værdi de bør have for organisationen. I værste fald skader de ligefrem, som hvis det er personhenførbare oplysninger, der viser sig at ligge ulovligt og overflødigt på et drev. Hvordan tager man livtag med at få styr på masserne?

Del 3 - Dubletter

Når store mængder dokumentation er ophobet over tid fx på fildrev, vil der med sikkerhed være mange dubletter. Hvis man nu kunne få udpeget dubletter undervejs i oprydningen, ville opgaven blive forenklet. Denne artikel handler om at finde dubletter. 

Hvor oplagt det end er, er det ikke en ret god metode at kigge på filnavne, når man leder efter dubletter. Samme filnavn er ingen sikkerhed for, at to filer er ens. Det hjælper naturligvis på visheden at se på Windows fildato og filstørrelsen. Men det er tidskrævende og bøvlet. Desuden, hvis man har taget en kopi af en fil og givet den et nyt navn, vil man ikke kunne genkende dem som dubletter, hvis man baserer sig på filnavn. Det er med andre ord ikke en rigtig holdbar metode i større oprydningsopgaver.

Checksum

Man kan beregne en slags fingeraftryk for en fil, som kaldes en checksum. Checksummer stammer egentlig fra kryptografien. Forestil dig, at en person har en fil, den overføres til en anden, og man vi gerne være helt sikker på at det, som modtages også er det, som sendes, så er det, at begge kan beregne checksummen. Er de ens, er der ikke tilstødt filen noget under overførslen. Der er så forskellige algoritmer, fx MD5 og SHA1, og der er forskellig sikkerhed for, at de rent faktisk ER ens, når checksummen siger det. Men de algortimer, der er udviklet til dette kan så bruges af os informationsspecialister helt praktisk. Med den usikkerhed der nu er forbundet med algoritmer af denne type, kan vi nemlig sige, at hvis to filer har samme checksum, er de dubletter. Og det gode er, at det kun er filens indhold - ikke dens navn og andet metadta i Windows - der indgår i beregningen, så to filer som er ens, men hvor filnavnet er blevet ændret, vil kunne identificeres med denne metode. En checksumsberegning kan derfor være en stor hjælp ifht at afsløre dubletter.

Brutal sletning

Lad os nu antage, at vi har lavet, selv eller med et værktøj, en checksumsberegning for alle filer i et folderhierarki, hvordan bruger vi så de oplysninger? Man får jo lyst brutalt at slette alle ekstra kopier, så der er kun én af hver fil tilbage. Det er også hvad mange tools, som kan det her lægger op til. Men en informationsspecialist kan godt få lidt nervøse trækninger ved udsigten til dette, for det faktum, at en kopi af filen ligger under projekt A, men også under fagområde B giver jo informationsspecialisten nogle hints om en relevant klassifikation af det dokument. Det er derfor ofte mere værdifuldt at bruge dubletinformationen som løbende hjælp til at danne overblik i oprydningen. Kig grundigt på mulighederne for efterbehandling, hvis du påtænker at indkøbe et tool. Det er ikke sikkert, at teknologileverandørens fornemmelse for oprydning svarer til informationsspecialistens.

Hjemmelavet checksumsberegning

Hvis man er til det eller kan overtale IT til det, kan man ret simpelt konstruere nogle småscripts, som itererer igennem folderstrukturer og finder filer. Men så har man brug for at få regnet checksummen ud på hver af disse filer, og til det formål har Microsoft en lille komponent, "Microsoft File Checksum Integrity Verifier", som kan lave beregningerne, og som kan kaldes fra fx kommandolinjescripts. Komponenten skal downloades fra Microsofts hjemmeside (søg fx på FCIV). Det har vi gjort nu og da og bare afleveret resultatet som lister i regneark, som derefter med pivotabeller osv har hjulpet os videre. Men vær opmærksom på at dette er helt uholdbart, hvis vi taler om store mængder. 100 eller 1000 filer, ok, men så stopper det nok også. Det bliver helt uhåndterbart i større mængder.

Tools til deduplikering

"Deduplikering" er den term, som softwareproducenter oftest bruger til at beskrive, at deres software kan netop det, vi efterlyser her, nemlig at fjerne gengangere, og ofte er det såmænd bare vores nu velkendte checksum-tankegang, der ligger bag værktøjerne.

Rigtigt mange tools til at støtte IT-afdelingen i dagligt vedligeholdsarbejde af filservere har rent faktisk lige præcis den her type tekniske dublet-genkendelse i sig og er ofte gearet til at klare meget større masser end et hjemmelavet script. Ofte er der også en mulighed for at handle på resultatet, som fx slette alle dubletter eller omdanne alle dubletter til  shortcuts til en enkelt instans af filen. Det er så ikke sikkert, at det er det, informationsspecialisten vil, men så kan man hyppigt blot trække lister ud og arbejde videre med i stedet. Prøv at se om ikke IT har nogle file system tools / disk space manager tools, som kan stilles til rådighed for en oprydning, hvis der ikke er økonomi til eller behov for en dedikeret løsning. 

Hvis man gerne vil have et tool, der kan deduplikere, men samtidig kan lede efter noget bestemt i filerne - fx noget med personnummerformat, så kan det betale sig at kigge i retning af søgeværktøjer og måske især eDiscovery tools. Mange eDiscovery tools er hundedyre og kan meget mere end oprydning, fx kan de lave legal hold på filerne. Men nogle af dem har en "lillebror"; det kunne fx være kaldt et file analytics tool eller noget i den stil.

Næsten ens

Der, hvor det bliver rigtigt smart er jo, hvis et værktøj kan genkende, at indholdet i to filer er det samme, selvom de er i forskellige formater - fx Word og PDF. Der vil checksummen være forskellig, så de tools, der baserer sig på dette, vil ikke kunne parre disse to filer. Fra en checksum kan man heller ikke se, at noget er næsten ens. Fx version 0.9 og 1.0 af et dokument, eller et dokument og en underskreven, indscannet udgave af samme dokument. Modsat ovenfor kan vi ikke rigtigt pege på en kategori af tools eller en term at søge efter for at finde frem til tools, der kan den slags, men de findes. Vi har kendskab til et enkelt værktøj, som kan ovenstående ud fra en slags fingeraftryk, men denne gang af dt tekstlige indhold. Ret imponerende. Det var dog ret dyrt, sidst vi så på det.

Det er hensigten, at en af de kommende artikler skal handle om kunstig intelligens til klassifikation. Det ovenstående er ikke kunstig intelligensbaseret, men stadig uhyre smart. 

Disse indlæg vil ikke, hvor det er muligt at undgå det, fremhæve specifikke produkter, men specifik information kan fås ved at kontakte os.

If you liked this post, you are most welcome to share it.