Goede grap op Twitter: “In de goeie ouwe tijd waren hackers nog hardcore. Neem de groep die zich ‘PTT’ noemde. Die wist de adresgegevens te bemachtigen van bijna iedereen, sorteerde die op woonplaats en achternaam, printte dat hele bestand honderdduizenden keren uit en legde het ingebonden bij iedereen voor de deur.” Das war einmal. Het telefoonboek gaat nu echt verdwijnen. Bij het verschijnen van dat persbericht begin januari zwolg de vaderlandse pers een dag lang in nostalgie. Weet je nog, schreef NRC Handelsblad, de tijd dat wij journalisten met een liniaal over de pagina’s gingen om het woonadres te vinden van een mogelijke bron?
Ik herinnerde me ineens weer dat ik ooit datzelfde deed om achter het adres van mijn latere eerste vriendinnetje te komen. En ik dank het Vliegend Spaghettimonster op mijn blote knieën dat zoonlief, op de drempel van de puberteit, die beproeving niet meer hoeft te doorstaan.
Want het kan zo eenvoudig zijn. Neem nou India. Daar hebben ze een centrale overheidsdatabase, Aadhaar (‘basis’) genaamd. Je kunt er geheel vrijwillig je NAW-gegevens, geboortedatum, pasfoto, vingerafdrukken en irisscan in deponeren. Omdat de Indiërs er voor een bankrekening of een SIM-kaart van afhankelijk zijn, is deelname inmiddels niet meer zo heel vrijwillig. Een journalist van dagblad The Tribune meldde onlangs dat je in een WhatsApp-groep voor omgerekend een paar euro’s de inloggegevens kunt kopen. Binnen twintig minuten had ze toegang tot de data van 1,2 miljard (van de 1,3 miljard) landgenoten.
Binnen twintig minuten had een Indiase journalist voor een paar euro toegang tot de data van 1,2 miljard landgenoten.
Zou zulke toegang in Nederland te koop zijn, hoor ik de hormonen van zoonlief al vragen. Een groep juristen en bezorgde burgers, onder wie schrijvers Tommy Wieringa en Maxim Februari, is er niet gerust op. Dit Platform Bescherming Burgerrechten maakt bezwaar tegen het Systeem Risico Indicatie, SyRI. SyRI is “een instrument waarmee in een beveiligde omgeving op een zorgvuldige manier data worden gekoppeld en vervolgens geanalyseerd” aldus het overheidsbesluit uit 2014. Het Platform is nog niet zo zeker van die beveiliging en zorgvuldigheid. In een column riep Wieringa gemeenteambtenaren op bij hem te biecht te gaan. Hij hoorde verhalen over het niet kunnen weerstaan van de verleiding om tóch even het dossier van je nieuwe date in te kijken. (Los daarvan is het de vraag of de overheid een koppeling mag leggen tussen gegevens die ze voor verschillende doeleinden bij haar burgers heeft verzameld.)
Met gecentraliseerde databanken gaat het nooit lukken om een aanvaardbaar niveau van privacy te krijgen. We hebben zeven miljard persoonsgebonden datakluisjes nodig, en vervolgens toepassingen die een bewerking op (een beperkt deel van) die data kunnen uitvoeren. Alleen deze ontkoppeling van data en applicaties kan voorkomen dat een enkele app de enige toegangspoort tot alle data is. Kortom: het telefoonboek moet definitief dicht.
Als big data de olie van de eenentwintigste eeuw is, is data science de nieuwe raffinaderij. Je ziet ze uit de grond schieten, de data science opleidingen. Wat het precies is, datawetenschap, is onduidelijk. De Engelstalige Wikipedia houdt het (momenteel!) op een interdisciplinair veld met wetenschappelijke methoden, processen en systemen waarmee kennis en inzichten uit (on)gestructureerde data kunnen worden gehaald.
Nu is het niet per se een nadeel dat de datawetenschap nog op zoek is naar haar identiteit. Vele wetenschappen zijn voortgekomen uit zo’n vage beginfase. Kennis en methoden uit diverse disciplines worden op een nieuw verschijnsel toegepast. Er ontstaat een ‘interdisciplinair veld’. Neem de communicatiewetenschap. Toen ik het tussen 1988 en 1992 studeerde, begon het net van een veld in een discipline te veranderen. Kernvraag was wat de invloed van media op individuen, de samenleving en de cultuur is. In de jaren zestig en zeventig stortten psychologen, sociologen, politicologen, tekstwetenschappers en zo nog wat specialismen zich elk vanuit hun eigen benadering op dit vraagstuk. Langzaam groeiden ze naar elkaar toe. Er ontstonden vakgroepen, tijdschriften, congressen en – dán heb je het echt gemaakt als discipline – een eigen code in de bibliotheekthesaurus.
‘Berg je theorieën maar op. De waarheid zal uit de data tot u komen.’
Over een jaar of twintig zal data science dus ook wel een discipline zijn en weten we wel wat het ‘is’. Toch kan ik enige twijfel niet onderdrukken. Die twijfel is ontstaan toen ik een artikel las van Chris Anderson, de auteur van de wereldwijde bestseller The Long Tail. In 2008 schreef hij dit artikel in Wired onder de titel Het einde van theorie: hoe de datavloed de wetenschappelijke methode overbodig maakt. Door krachtige algoritmes op gigantische databestanden los te laten, betoogt Anderson, zullen we in de toekomst geen theorieën en methoden meer nodig hebben. Je laat gewoon de computer zijn werk doen en je vindt dingen waar wetenschappers nooit op zouden zijn gekomen. Oftewel: berg je theorieën maar op. De waarheid zal uit de data tot u komen.
Kijk, toen was Anderson mij dus kwijt. Natuurlijk kun je uit big data opmerkelijke verbanden en patronen destilleren. Maar zonder een theorie of model – een samenhangend verhaal – weet je niet wat die verbanden nu eigenlijk zeggen. In mijn Twitter-tijdlijn komen elke dag grafieken voorbij waarbij ook mijn eerste reactie is: hé maar dat is interessant! Dan doemt de volgende opmerkelijke grafiek op en is de vorige alweer vergeten.
Het gaat om de context: het bredere verhaal waarin al die feiten en verbanden zin krijgen doordat ze met elkaar een samenhangend relaas vormen. Daarvoor blijven nodig: theorieën, modellen, hypothesen en verklarende statistiek. Ook de datawetenschap kan het niet met data alleen. Ook zij zal uit die data via informatie tot kennis moeten komen – en laten we hopen: tot wijsheid.
Er is iets wat nog harder stijgt dan onze zeespiegel: de vloed aan data. Het is bijna niet meer voor te stellen, maar er is dus een tijd geweest waarin data – niet big, maar small – werden verzameld. Wetenschappers stelden een vragenlijst op. Die werd getest om evidente fouten eruit te halen. Enquêteboekjes werden gedrukt en enquêteurs gingen langs bij een duizendtal willekeurig geselecteerde personen. Ze belden aan.
Als het meezat, was de beoogde respondent thuis en genegen het onderzoek ter plekke te ondergaan. Zo niet, dan werd volgens een vaste instructie (‘sla linksaf en bij de eerste afslag opnieuw, en bel aan bij het derde huis rechts’) een ander huishouden benaderd. Aan het eind van de dag gingen de ingevulde enquêtes in een envelop naar het onderzoeksbureau, waar ze door datatypisten in de computer werden ingevoerd – aanvankelijk met ponskaarten, later rechtstreeks in een bestand.
Alle fasen in het proces werden nauwkeurig gemonitord om bijvoorbeeld fraude tegen te gaan – het was voor enquêteurs, ook maar mensen nietwaar, best verleidelijk om thuis in bed tien enquêtes in te vullen. Ook als de data eenmaal waren ingeklopt, vond er nog een strenge check plaats. Door mij bijvoorbeeld. We spreken over het jaar 1990 en mijn derde bijbaantje. Ik mocht zestig uur besteden aan het opschonen van de data uit een onderzoek met zo’n duizend respondenten. Vond ik al analyserend inconsistenties, zoals in 1800 geboren kleuters, dan dook ik in de ingevulde enquêteboekjes om het lek boven te krijgen.
Er is een race to the bottom van marktonderzoeksbureautjes die voor een prikkie een webenquête leveren.
Schreeuwend duur, dit. Internet en web hebben het een stuk goedkoper en sneller gemaakt, zoveel is zeker. Maar niet noodzakelijk beter. Er is een race to the bottom van marktonderzoeksbureautjes die voor een prikkie een webenquête leveren. En van managers en marketeers die met een persbericht over ‘een onderzoekje’ wat gratis publiciteit willen genereren.
Zou het tot marketing beperkt blijven, dan was het allemaal niet zo erg. Als de leugen ergens regeert, dan is het daar. Maar beleids- en opinieonderzoek, ter ondersteuning van de publieke zaak, raakt inmiddels ook geïnfecteerd. Steeds vaker hoor ik bij de minste kritiek op de opzet zeggen: ‘Ja, maar ons onderzoek had ook geen wetenschappelijke pretenties!’ Dat is als met een vals biljetje van 50 bij de Jumbo proberen te betalen en dan zeggen: ‘ja, maar ik heb ook nooit de pretentie gehad dat het echt was.’
De denkfout is dat het verschil tussen markt- en wetenschappelijk onderzoek gelegen zou zijn in de kwaliteit van de dataverzameling. Als er al verschil is tussen marktonderzoek en wetenschap, is die gelegen in de diepgang van de analyse. Data verzamelen is al zoveel goedkoper en sneller geworden dat we niet minder, maar meer zouden moeten investeren in de kwaliteit ervan. Net zoals bij onze dijken: in het publieke belang.
Privacy & Cookies: This site uses cookies. By continuing to use this website, you agree to their use.
To find out more, including how to control cookies, see here:
Cookiebeleid