Anonymisering

Anonymisering af personhenførbare informationer er de senere år blevet mere og mere vigtigt – og jeg får mange spørgsmål om, hvordan det er muligt at skjule personfølsomme informationer i færdige dokumenter. Det har jeg skrevet lidt om her; Der er to forskellige situationer, når man har dokumentation der skal anonymiseres.
Der er dokumenter, hvor man ved hvilke data, der skal anonymiseres. Det ved man eksempelvis ud fra en medarbejder- eller kundeliste. Her søger vi altså teksten igennem – og rammer de navne, adresser, CPR-numre etc vi har fortalt systemet, at vi vil anonymisere. Det er en relativt enkel øvelse, man kan udføre ved søgninger i ALT relevant data. En anden situation er lidt mere kompliceret at anonymisere. Her har vi at gøre med dokumenter, hvor der kan indgå personhenførbare informationer, som vi ikke kender oprindelsen af – og de er ikke i et fast mønster. Vi ved bare, at det kan være navne, adresser, cpr-numre etc. I nogen grad kan Natural Language Processing (NLP) baseret teknologi identificere eksempelvis et navn eller et telefonnummer ud fra sætningsstrukturen. Det vil dog altid kræve, at man afprøver om præcisionen er høj nok. Persondatalovgivningen kræver heldigvis ikke perfektion, men at der er gjort en dokumenteret og ihærdig indsats. Når den tekst, der skal anonymiseres er markeret, er det vigtigt, at teksten bliver fjernet. Det er ikke nok blot at overstrege teksten med sort, da teksten dermed stadig vil være tilgængelig i dokumentet – og en hacker snildt kan se igennem den sorte overstregning. Derfor skal teksten fjernes helt – og erstattes af en sort bjælke. Vi har nogle udmærkede værktøjer til at hjælpe os med den del. Et eksempel er Adlib Enterprise, der kan udføre en anonymisering under konverteringen af dokumentet til PDF. På samme tidspunkt, kan dokumentet blive påtrykt eksempelvis vandmærke og fortløbende sidenummerering, samt mange filer kan sammensmeltes til et dokument. Konklusion – anonymisering er muligt.