De enorme hoeveelheid data in de wereld gaat elk verstand te boven. Naar verwachting is er tegen 2025 jaarlijks 175 zettabytes (ZB) aan data1.1 Eén ZB is 1021 bytes, of 1 biljoen gigabytes of 1 miljard terrabytes. Om het concreter te maken: “If each Gigabyte in a Zettabyte were a brick, 258 Great Walls of China (made of 3,873,000,000 bricks) could be built”, aldus Taru Khurana van Cisco.2
Ook de veiligheidsdiensten in Nederland kampen met een grote datastroom: denk bijvoorbeeld aan alle data die bovendrijven bij onderzoeken naar criminele activiteiten. Zoals betrokken personen, bezittingen en de relaties hiertussen. Deze groei veroorzaakt steeds meer uitdagingen bij het ontvangen, verwerken, analyseren, verrijken, bewaren en hervinden van gegevens. Dit is handmatig niet meer bij te houden.
Gelukkig stellen moderne en innovatieve technologieën ons steeds meer in staat om met grote hoeveelheden en diversiteit aan gegevens om te gaan.
De moderne technologie die bedrijven als Disney en andere uitgevers gebruiken, ondersteunt in een aantal aspecten datamanagement. Denk bijvoorbeeld aan het ontvangen van data in verschillende grootte, vorm en type, zowel gestructureerd (persoonsgegevens in een database) als ongestructureerd (foto’s en video’s op telefoons, laptops en sociale media). Andere voorbeelden zijn het opslaan, transformeren en zoeken van gegevens op verschillende opslagniveaus, on-premise, in de cloud en zelfs op disk of tape.

Relevante informatievoorziening
Niet alle data die veiligheidsdiensten voorbij zien komen, zijn altijd van direct belang. Echter, in een later onderzoek kunnen ze wellicht wel van onschatbare waarde blijken te zijn. De informatie moet dan wel beschikbaar en terug te vinden zijn. Door gegevens op een juiste wijze op te slaan zijn zij op een later moment wel herbruikbaar.
De vraag is: hoe kunnen deze grote hoeveelheden data op een snelle en slimme wijze getagd en geclassificeerd worden? Daarbij is het van belang om na te denken over toekomstig gebruik van de gegevens.
Allereerst door gegevens eenduidig te classificeren, wordt er waarde toegekend aan de gegevens vanuit een Intelligence en security perspectief. Dit zorgt ervoor dat deze gegevens niet enkel in lopende onderzoeken, maar ook in toekomstige onderzoeken gebruikt kan worden. De classificatie van de gegevens zorgt voor relevantie van de gegevens binnen het bronsysteem. Op basis van de classificatie kan het systeem ook de toegang tot de gegevens bepalen. Daarnaast is het vastleggen van de relatie met operationele zaken is van belang. Het ontvangen, ontstaan en opslaan van de gegevens vindt zijn oorsprong vanuit zaken die wel of niet gekoppeld zijn aan verschillende waarnemingen of gebeurtenissen. Die gegevens kunnen op dat moment verrijkt worden met alle relevante en benodigde metadata (bijvoorbeeld datum en locatie), maar ook juridische grondslagen en classificatie. Dit betreft ook de mogelijke ‘houdbaarheidsdatum’ van de gegevens, waarbij wet- en regelgeving bepaalt hoelang deze rechtsgeldig is en of de gegevens vernietigd of gearchiveerd moeten worden.
Tevens is het van belang dat het proces van classificeren en vastleggen van metadata plaatsvindt tijdens de operationele verwerking van gegevens en content. Op dat moment is namelijk alle relevante, gerelateerde en gevalideerde informatie beschikbaar (zie Figuur 1) en kan op een slimme wijze worden bepaald welke gegevens wel of niet moet worden getagd. Naast het classificeren van nieuwe gegevens kunnen de classificatiedata en metadata verrijkt worden met de laatste updates. Dit maakt het mogelijk om gegevens te voorzien (taggen) van alle gerelateerde informatie. Dit geldt niet alleen voor een enkel data type, maar voor een grote verscheidenheid aan types, zoals beeldmateriaal, geluidsmateriaal, fysieke documenten, maar ook persoonsgegevens en voertuiggegevens.

Persoonsgegevens? En de AVG dan?
Het type informatie en de onderlinge relaties bepalen welke metadata aan welke gegevens worden toegevoegd binnen het bronsysteem. Het systeem zorgt op die manier zelf dat de gegevens in het systeem voldoen aan de geldende AVG (Algemene Verordening Gegevensbescherming) vanaf het moment dat ze worden ingevoerd. Dit is mogelijk omdat de gegevens uniek zijn vastgelegd en het systeem de geldende wetgeving dus waarborgt. De gebruiker mag er vanuit gaan dat de in het systeem aanwezige gegevens een geldige (wettelijke) grondslag hebben. Het wijzigen van de (samenhang tussen) de gegevens kan voor een wijziging in de grondslag zorgen, waardoor de gegevens langer in het systeem kunnen blijven. Door de wijziging kan de grondslag ook verdwijnen: het systeem zal de gegevens in dat geval verwijderen.
Relevantie
Als we naar Disney kijken, zien we dat zij hun beeldmateriaal eenduidig classificeren en nauwkeurig opslaan zodat deze snel is terug te vinden. Bij het opslaan zal Disney ook moeten bepalen wie het beeldmateriaal mag zien of (her)gebruiken. Door dit goed in te richten is een organisatie als Disney in staat hun beeldmateriaal snel terug te vinden en in een juiste volgorde te zetten om zo een complete film te maken. Als we dan kijken naar de veiligheidsdiensten zien we dezelfde uitdaging: het compleet krijgen van de film of verhaallijn. Het samenspel tussen verschillende systemen die gebruik maken van één enkele bron van gegevens, een ‘Single point of truth’, is hierin essentieel en zorgt voor nieuwe mogelijkheden op het gebied van de betrouwbaarheid van de basisgegevens. De garantie van authenticatie, betrouwbaarheid en wetmatigheid van data is het meest waardevolle aspect. Enkel het wetmatige deel is van minder belang bij Disney, terwijl dit wel van groot belang is voor veiligheidsdiensten als data later als bewijsmateriaal moet dienen.

Het slim opslaan van de informatie zorgt bij de diensten dus voor andere uitdagingen dan bij Disney. Voor veiligheidsdiensten is het van belang dat de gegevens op een slimmere wijze wordt opgeslagen en vervolgstappen sneller en beter bepaald kunnen worden. Zo’n vervolgstap moet ofwel manueel ofwel geautomatiseerd gebeuren. Ondertussen zijn de gegevens van de diensten onderhevig aan allerlei wetgeving omtrent het opslaan of verwerken. Dit maakt het proces rondom dataverwerking complex en onderhevig aan verandering.
Om dit proces te ondersteunen kan andere, meer innovatieve, technologie gebruikt worden zoals Robotics Process Automation (RPA), Natural Language Processing/Generation (NLP/NLG) en Artificial Intelligence (AI), maar ook (beeld)herkenningstechnologie zoals Facial Recognition. Deze technologieën worden ook wel Intelligente Automatiseringssoftware (IA) genoemd. De software wordt veelal gebruikt om bedrijfsprocessen aan de hand van de inhoud van data te stroomlijnen en om snel en complexe beslissingen te laten nemen. In combinatie met herkenningssoftware kan een automatische interpretatie en verrijking van de gegevens plaatsvinden. Het resultaat van de herkenningssoftware wordt dan als aanvullende (meta) data of tags aan de gegevens toegevoegd.
Door de gegevens met behulp van deze technologieën op een slimme en eenduidige wijze op te slaan, zijn de diensten ook in staat om informatie snel terug te vinden. Op basis van de classificatie en metadata kan er zeer snel en nauwkeuring gezocht worden binnen de opgeslagen gegevens. Denk bijvoorbeeld aan het koppelen van zoektechnologie die op basis van de classificatie en metadata zoekresultaten weergeeft, met een scoringsresultaat van de match tussen de zoekopdracht en het gevonden resultaat.
Te vaak zie je dat de genoemde technologieën als losse, opzichzelfstaande oplossing worden toegepast en niet als component worden gezien van een totaaloplossing. Echter, als technieken samenwerken, ontstaat een veel krachtiger oplossing om grote datavolumes toch op een snelle en accurate manier te classificeren. Door deze techniek patronen te laten herkennen in nieuwe data of updates op reeds opgeslagen data, kunnen systemen zelf bepalen of snel actie moet worden ondernomen op het moment dat een bepaalde trend of patroon herkend wordt.
De gegevens zijn er, de analyse is gedaan en nu? Actie!
Er is beschikking over een gigantische hoeveelheid gegevens, maar de waarde ervan is nog onduidelijk. Door de gegevens goed te classificeren en te labelen krijgen ze waarde en zijn ze op een later moment snel terug te vinden. Daarnaast wordt het zo mogelijk de focus vanuit een ander perspectief op te pakken. Neem een onderzoek, bijvoorbeeld naar een vechtpartij, waarin de gegevens van een passerende auto zijn vastgelegd. In dit onderzoek lijkt de auto niet van belang te zijn, omdat deze enkel als passant in het onderzoek is vastgelegd. Op het moment dat dezelfde auto in een ander onderzoek – bijvoorbeeld naar een bankoverval – wordt vastgelegd, kan gesignaleerd worden dat deze auto gerelateerd is aan dit onderzoek. Hier worden de gegevens van de auto hergebruikt en niet opnieuw toegevoegd aan het bronsysteem. Doordat het nu mogelijk is om op de auto te focussen en het systeem te bevragen vanuit het perspectief van de auto, kan een beeld gevormd worden van de betrokkenheid van deze auto in meerdere zaken. Het vervolg kan dan zijn dat informatie omtrent de eigenaar wordt opgezocht en deze gegevens te relateren aan het onderzoek. Bij het zoeken naar gegevens van de eigenaar in het bronsysteem is het van belang dat de verschillende diensten hun informatie omtrent deze persoon op één plek opslaan. Als de diensten gezamenlijk gebruik maken van het bronsysteem, kan een duidelijker beeld ontstaan van wie deze persoon is en of deze persoon eventueel betrokken bij zaken van andere diensten. Autorisatie bepaald wie deze informatie kan inzien. Dit hangt uiteraard samen met de classificatie en metadata van de gegevens. Op het moment dat dit geheel goed ingericht is, zal een beter en vollediger beeld van deze persoon ontstaan. Dit kan helpen om een sterkere zaak tegen deze persoon op te bouwen.
De geloofwaardigheid en bewijslast voor deze onderzoeken begint dus bij de gevalideerde gegevens die éénmalig in het systeem zijn vastgelegd. Met allerlei additionele analysesoftware kan er nog meer waarde uit de gegevens gehaald worden. Ook visualisatietools brengen de geanalyseerde gegevens goed in beeld.
Door de onderlinge verhoudingen van gegevens in het systeem bloot te leggen, is het mogelijk om helder aan te tonen wat deze samenstelling van bewijsmiddelen kan betekenen.
Conclusie
Met deze oplossingsrichting voor slimme verwerking, eenduidige opslag en herbruikbaarheid van gegevens, kunnen bronsystemen de wetmatigheid, relevantie en betrouwbaarheid van gegevens beter faciliteren en garanderen.
Door het automatiseren van intelligence te zien als één geheel en niet als losse opzichzelfstaande intelligence-toepassingen met verschillende bronsystemen, creëer je uiteindelijk een zeer oede basisvoorziening met het bronsysteem als ‘Single point of truth’. De betreffende diensten verwerven een betere kennispositie en zullen veel snellere beslissingen kunnen maken om bijvoorbeeld tot actie of vervolging over te gaan. Dit alles leidt uiteindelijk naar goed functionerende diensten die op basis van betrouwbare gegevens keuzes kunnen maken en hierop actie kunnen ondernemen.
Een goed voorbeeld van een organisatie die dit momenteel toepast is de Finse politie. Zij hebben gekozen voor een oplossing waarbij meerdere instanties gebruik maken van één bronsysteem. Zo werken de politie, douane, grensbewaking en het leger met één systeem. Dit geeft deze instanties een veel betere kennispositie en stelt ze in staat nauwkeurig samen te werken en acties te ondernemen.
Als we kijken naar Nederland, dan zien we een beweging van verantwoordelijkheden van de politie en centrale overheden naar de lokale gemeente. De gemeente krijgt in deze zin ook de handhavingsbevoegdheid. Ook daar geldt dat een ‘Single point of truth’ de sleutel is naar betere handhaving en dienstverlening van de burger.