Geraffineerde wetenschap
Als big data de olie van de eenentwintigste eeuw is, is data science de nieuwe raffinaderij. Je ziet ze uit de grond schieten, de data science opleidingen. Wat het precies is, datawetenschap, is onduidelijk. De Engelstalige Wikipedia houdt het (momenteel!) op een interdisciplinair veld met wetenschappelijke methoden, processen en systemen waarmee kennis en inzichten uit (on)gestructureerde data kunnen worden gehaald.Nu is het niet per se een nadeel dat de datawetenschap nog op zoek is naar haar identiteit. Vele wetenschappen zijn voortgekomen uit zo’n vage beginfase. Kennis en methoden uit diverse disciplines worden op een nieuw verschijnsel toegepast. Er ontstaat een ‘interdisciplinair veld’. Neem de communicatiewetenschap. Toen ik het tussen 1988 en 1992 studeerde, begon het net van een veld in een discipline te veranderen. Kernvraag was wat de invloed van media op individuen, de samenleving en de cultuur is. In de jaren zestig en zeventig stortten psychologen, sociologen, politicologen, tekstwetenschappers en zo nog wat specialismen zich elk vanuit hun eigen benadering op dit vraagstuk. Langzaam groeiden ze naar elkaar toe. Er ontstonden vakgroepen, tijdschriften, congressen en – dán heb je het echt gemaakt als discipline – een eigen code in de bibliotheekthesaurus.
‘Berg je theorieën maar op. De waarheid zal uit de data tot u komen.’
Over een jaar of twintig zal data science dus ook wel een discipline zijn en weten we wel wat het ‘is’. Toch kan ik enige twijfel niet onderdrukken. Die twijfel is ontstaan toen ik een artikel las van Chris Anderson, de auteur van de wereldwijde bestseller The Long Tail. In 2008 schreef hij dit artikel in Wired onder de titel Het einde van theorie: hoe de datavloed de wetenschappelijke methode overbodig maakt. Door krachtige algoritmes op gigantische databestanden los te laten, betoogt Anderson, zullen we in de toekomst geen theorieën en methoden meer nodig hebben. Je laat gewoon de computer zijn werk doen en je vindt dingen waar wetenschappers nooit op zouden zijn gekomen. Oftewel: berg je theorieën maar op. De waarheid zal uit de data tot u komen.
Kijk, toen was Anderson mij dus kwijt. Natuurlijk kun je uit big data opmerkelijke verbanden en patronen destilleren. Maar zonder een theorie of model – een samenhangend verhaal – weet je niet wat die verbanden nu eigenlijk zeggen. In mijn Twitter-tijdlijn komen elke dag grafieken voorbij waarbij ook mijn eerste reactie is: hé maar dat is interessant! Dan doemt de volgende opmerkelijke grafiek op en is de vorige alweer vergeten.
Het gaat om de context: het bredere verhaal waarin al die feiten en verbanden zin krijgen doordat ze met elkaar een samenhangend relaas vormen. Daarvoor blijven nodig: theorieën, modellen, hypothesen en verklarende statistiek. Ook de datawetenschap kan het niet met data alleen. Ook zij zal uit die data via informatie tot kennis moeten komen – en laten we hopen: tot wijsheid.
Deze column verscheen in Vakblad Informatieprofessional, jaargang 21 nummer 8, november 2017.
Geraffineerde wetenschap by Frank Huysmans is licensed under a Creative Commons Attribution 4.0 International License.