Uit recente ervaringen blijkt dat opsporingsinstanties alleen met ontologie en geautomatiseerde opsporing kunnen voorkomen dat ze verzuipen in big data.
Wat te doen aan de verstikking door de exponentieel groeiende data binnen de opsporing?
Big data is het buzzword voor dataverzamelingen die groot en complex zijn, maar ook snel groeien. We genereren steeds meer data door het gebruik van internet, social media, smartphones en camera’s. Ook zien we steeds meer in, dat deze vorm van data in de opsporing belangrijke feiten kan opleveren, als je maar in staat bent om de speld in de hooiberg te vinden1.
Erwin van Eijk van het Nederlands Forensisch Instituut (NFI) wijst er in De Telegraaf2 (april 2012) op dat er bij het NFI tegenwoordig 2.000 keer zoveel data wordt onderzocht als in 1998. “Het aantal digitale onderzoekers is sindsdien slechts vertienvoudigd. We moeten dus slimme methoden bedenken om die datagroei bij te benen.”
“Het aantal digitale onderzoekers is sindsdien slechts vertienvoudigd. We moeten dus slimme methoden bedenken om die datagroei bij te benen.”
Traditionele verwerking en analyse van deze data is niet langer toereikend. Opsporingsinstanties hebben bij uitstek behoefte om zo veel mogelijk data te verzamelen om criminaliteit te ontdekken, te analyseren en te vervolgen.
Bij onderzoek naar criminele activiteiten krijgen opsporingsinstanties te maken met exponentieel groeiende hoeveelheden data in diverse vormen en maten. Niet alleen (in beslag genomen) computers en telefoons waarop veel bestanden staan, maar ook externe databronnen zoals e-mailverkeer, sms’jes, internetfora en andere multimedia. Juist deze grote hoeveelheden, ongestructureerde data levert opsporingsorganisaties veel ongemak op3. In de spraakmakende kinderpornozaak tegen Robert M. meldde RTL Nieuws in maart 2012 dat het digitale onderzoek in de Amsterdamse zedenzaak een enorme klus was. De politie trof in de woning van Robert M. en Richard van O. een groot aantal datadragers aan die zeer goed beveiligd waren. In de woning van de verdachten vond de politie onder meer 4 computers, 3 externe harde schijven, 2 USBsticks, 2 geheugenkaarten, 2 videocamera’s, een fotocamera, 4 mobiele telefoons, 246 cd-roms en 74 diskettes. De ‘datadragers’ van M. bleken vol te staan met acht terabyte aan kinderporno.
Het in 2012 uitgevoerde Trends in Veiligheid onderzoek van Capgemini, uitgevoerd door TNS NIPO, wijst uit dat het publiek verwacht dat opsporingsinstanties al deze verschillende media gebruiken om criminelen te pakken4. Sterker nog: het afbreukrisico is groot als achteraf bekend wordt dat criminaliteit voorkomen had kunnen worden, omdat informatie al aanwezig was, maar nog niet goed op het netvlies van de opsporingsinstantie stond.
Op de huidige voet voortgaan is geen optie meer. Steekproeven nemen is niet toereikend door het risico op gemiste kansen. Keuzes maken en zaken op de plank laten liggen vanwege gebrek aan tijd, geld en capaciteit, is ook niet acceptabel. Er is een andere aanpak nodig om te voorkomen dat opsporingsinstanties verstikken in de grote en diverse hoeveelheid data.
Er moet eerst een schifting worden gemaakt in alle data die tijdens een onderzoek beschikbaar komt. Welke data bevat bruikbare informatie voor de opsporing en geeft richting aan het onderzoek en welke data is slechts ruis? Want niets verkoopt zo slecht dan te moeten concluderen dat de verkeerde sporen zijn onderzocht en er geen tijd meer is om de juiste sporen te analyseren. Maar hoe kan dan het kaf van het koren op een verantwoorde manier gescheiden worden?
Om de data te kunnen scheiden in ruis en bruikbare informatie moet deze uniform zijn. Data is zonder bewerking in eerste instantie altijd pluriform van aard en kan dus niet zonder meer met elkaar vergeleken worden of van elkaar worden gescheiden. Aan alle data die beschikbaar is, moet een betekenis gegeven worden, wil deze waarde hebben. Hiervoor zullen organisaties intern afspraken moeten maken: er moet één definitie zijn, ofwel één ontologie waartegen alle data kan worden afgezet.
Een ontologie is een conceptueel schema waarmee alle relevante entiteiten en relaties binnen een domein worden vastgelegd. Ongeacht welke data aanwezig is en hoe het er uit ziet, het wordt interpretabel gemaakt en kan gebruikt worden voor analyse of automatische verwerking. Het gebruik van een ontologie heeft grote voordelen. Als bijvoorbeeld verschillende providers telefoonlijsten aanleveren in verschillende formaten en andere standaarden, dan kan deze informatie via een ontologie gestandaardiseerd worden. Hierdoor worden telefoonnummers altijd op eenzelfde
manier vastgelegd evenals tijd, locatie en duur van een gesprek.
Door data via een ontologie betekenis te geven, kan bepaald worden of deze van toegevoegde waarde is of niet. Door een gemeenschappelijk kader kan een opsporingsteam de data interpreteren, stapelen of simpelweg negeren. Nog steeds ligt dan echter het gevaar op de loer om te verstikken in de grote hoeveelheid data. Om snel richting te kunnen geven, moet de waardevolle data automatisch gedetecteerd worden.
De razendsnelle ICT-ontwikkelingen in het afgelopen decennium hebben ervoor gezorgd dat er diverse oplossingen op de markt zijn die relevante data automatisch kunnen detecteren. Hiermee zijn we in staat om in korte tijd (en veelal realtime) grote hoeveelheid data te verwerken. Hoe kunnen we met deze oplossingen het automatische proces zo inrichten dat de voor de opsporing relevante informatie boven komt drijven? Nadat de data met ontologie gestructureerd is, kan relevante data automatisch gedetecteerd worden, bijvoorbeeld door data te aggregeren. Zo kan er uit een grote hoeveelheid telefoonverkeer worden gedetecteerd met wie de meeste contacten zijn geweest. Daarnaast is het ook mogelijk om kennisregels in te zetten: als binnen een uur een kenteken van een auto gesignaleerd wordt in Groningen en Maastricht kan dat automatisch gedetecteerd worden als een verdachte combinatie van kenteken en locatie.
Toch blijkt dit makkelijker gezegd dan gedaan. De meeste oplossingen beschikken over de mogelijkheid om op alle mogelijke variabelen in het systeem sturing te geven aan het geautomatiseerde proces en daarmee de uitkomst, bij voortschrijdend inzicht of nieuwe maatschappelijke ontwikkelingen, nader te optimaliseren.
Doel bij het instellen van deze variabelen is tweeledig:
Met andere woorden: het optimum proberen te vinden. Dit optimum wordt bereikt met het koppelen van de juiste bronsystemen, het toepassen van ontologie en het gebruik van geautomatiseerde analyseprocessen (intelligence).
Op enkele luchthavens wordt gebruikgemaakt van moderne technologie bij de controle van passagiersgegevens. We kunnen ervoor kiezen om iedere
passagier te controleren maar we kunnen hier ook slimmer mee om gaan. Door bijvoorbeeld alle passagiersgegevens automatisch te vergelijken met lijsten van mensen die bij de overheid bekend zijn. Het systeem controleert automatisch alle passagiers en informeert de organisatie indien een mogelijk verdachte passagier aangetroffen wordt, de organisatie kan op basis van deze informatie acteren.
Recent is het risicodetectiesysteem RADAR bij het ministerie van Veiligheid en Justitie in gebruik genomen als middel om rechtspersonen niet alleen bij de oprichting, maar ook tijdens latere levensloopmomenten te controleren. RADAR is in staat om uit een aantal, nog niet eerder op deze schaal bij elkaar gebrachte, omvangrijke databases gegevens te verzamelen en middels dynamische confrontatie van de gegevens te analyseren op aspecten die mogelijk met zaken als fraude en witwassen te maken hebben. De signalen van misbruik van rechtspersonen die uit RADAR komen, worden in de vorm van een risicomelding gedeeld met relevante organisaties zoals de belastingdienst, politie en bijzondere opsporingsdiensten. Met deze unieke oplossing loopt het ministerie van Veiligheid en Justitie voorop in Europa, waar criminaliteit met rechtspersonen een groeiend aandachtspunt vormt.
Door geautomatiseerde intelligence is het mogelijk om uit datastromen de waardevolle of potentieel interessante informatie volledig geautomatiseerd te herkennen en ter nadere analyse aan te bieden aan het opsporingsteam. Hierdoor geeft het automatische proces richting aan het onderzoek: het opsporingsteam kan zich direct richten op potentieel interessante of waardevolle informatie in plaats van te beginnen met zoeken naar wat potentieel belangrijke informatie zou kunnen zijn. De informatieanalist die sturing geeft aan het geautomatiseerde proces krijgt hiermee een prominentere rol in het onderzoek.
De datastromen in de opsporing groeien exponentieel. Als de opsporingsinstanties niets doen, verstikken zij op den duur in de toenemende hoeveelheid data. Wie niet wil verzuipen, moet zich nu gaan voorbereiden op het pompen.
Met geautomatiseerde opsporing kunnen we in terabytes aan data de gewenste informatie detecteren. De technologie is er. Het is alleen een kwestie van bepalen welke oplossing voor een specifiek probleem het meest geschikt is. Ontologie is hierbij een randvoorwaarde om big data te structureren. De informatieanalist krijgt hierbij meer ruimte voor sturing aan het geautomatiseerde proces, omdat minder tijd wordt besteed aan het handmatig structureren van data.
1 Capgemini: Big Data: Next Generation Analytics
2 http://www.telegraaf.nl/binnenland/article20044368.ece
3 Capgemini: The deciding factor, big data & decision making
4 Onderzoek Capgemini, Trends in Veiligheid december 2012