Als big data de olie van de eenentwintigste eeuw is, is data science de nieuwe raffinaderij. Je ziet ze uit de grond schieten, de data science opleidingen. Wat het precies is, datawetenschap, is onduidelijk. De Engelstalige Wikipedia houdt het (momenteel!) op een interdisciplinair veld met wetenschappelijke methoden, processen en systemen waarmee kennis en inzichten uit (on)gestructureerde data kunnen worden gehaald.
Nu is het niet per se een nadeel dat de datawetenschap nog op zoek is naar haar identiteit. Vele wetenschappen zijn voortgekomen uit zo’n vage beginfase. Kennis en methoden uit diverse disciplines worden op een nieuw verschijnsel toegepast. Er ontstaat een ‘interdisciplinair veld’. Neem de communicatiewetenschap. Toen ik het tussen 1988 en 1992 studeerde, begon het net van een veld in een discipline te veranderen. Kernvraag was wat de invloed van media op individuen, de samenleving en de cultuur is. In de jaren zestig en zeventig stortten psychologen, sociologen, politicologen, tekstwetenschappers en zo nog wat specialismen zich elk vanuit hun eigen benadering op dit vraagstuk. Langzaam groeiden ze naar elkaar toe. Er ontstonden vakgroepen, tijdschriften, congressen en – dán heb je het echt gemaakt als discipline – een eigen code in de bibliotheekthesaurus.
‘Berg je theorieën maar op. De waarheid zal uit de data tot u komen.’
Over een jaar of twintig zal data science dus ook wel een discipline zijn en weten we wel wat het ‘is’. Toch kan ik enige twijfel niet onderdrukken. Die twijfel is ontstaan toen ik een artikel las van Chris Anderson, de auteur van de wereldwijde bestseller The Long Tail. In 2008 schreef hij dit artikel in Wired onder de titel Het einde van theorie: hoe de datavloed de wetenschappelijke methode overbodig maakt. Door krachtige algoritmes op gigantische databestanden los te laten, betoogt Anderson, zullen we in de toekomst geen theorieën en methoden meer nodig hebben. Je laat gewoon de computer zijn werk doen en je vindt dingen waar wetenschappers nooit op zouden zijn gekomen. Oftewel: berg je theorieën maar op. De waarheid zal uit de data tot u komen.
Kijk, toen was Anderson mij dus kwijt. Natuurlijk kun je uit big data opmerkelijke verbanden en patronen destilleren. Maar zonder een theorie of model – een samenhangend verhaal – weet je niet wat die verbanden nu eigenlijk zeggen. In mijn Twitter-tijdlijn komen elke dag grafieken voorbij waarbij ook mijn eerste reactie is: hé maar dat is interessant! Dan doemt de volgende opmerkelijke grafiek op en is de vorige alweer vergeten.
Het gaat om de context: het bredere verhaal waarin al die feiten en verbanden zin krijgen doordat ze met elkaar een samenhangend relaas vormen. Daarvoor blijven nodig: theorieën, modellen, hypothesen en verklarende statistiek. Ook de datawetenschap kan het niet met data alleen. Ook zij zal uit die data via informatie tot kennis moeten komen – en laten we hopen: tot wijsheid.
Deze column verscheen in Vakblad Informatieprofessional, jaargang 21 nummer 8, november 2017.
Posted by Frank Huysmans on 11 november 2017 | Posted in columns, onderzoek, opinie, vakpublicaties | Tagged algoritmes, big data, data science, interdisciplinariteit, wetenschapstheorie
|
“Over een langere periode laat [het] aantal [bibliotheekvestigingen] een dalende trend zien: van circa 1.100 (hoofd)vestigingen in 2011 naar 770 in 2015.”
Dit schreef minister Bussemaker van Onderwijs, Cultuur en Wetenschap op 25 januari 2017 in een brief aan de Tweede Kamer.
Het verkeerd informeren van de Kamer geldt zoals u weet als een politieke doodzonde. Nu zal minister Bussemaker dit wel overleven, al was het maar omdat ze inmiddels demissionair is. Bovendien heeft ze de informatie uit wat je noemt onverdachte bron: de Vereniging van Openbare Bibliotheken (VOB).
Mythe
Het is een hardnekkige mythe. Er zijn helemaal geen driehonderd bibliotheekvestigingen verdwenen. Dit cijfer zingt al sinds 2012 rond in kringen van beleidsmakers, uitgevers, auteurs en anderen die het boek een warm hart toedragen. Maar het klopt niet.
Ik kan niet nagaan hoe lang deze informatie al op de website van de VOB staat. De oorsprong van het getal ligt in 2010. Ik was destijds werkzaam bij het Sectorinstituut Openbare Bibliotheken (SIOB) en verantwoordelijk voor onderzoek naar het bibliotheekstelsel. Een van de eerste dingen die ik deed, was een onderzoek in opdracht geven naar de te verwachten gemeentelijke bezuinigingen op het bibliotheekwerk.
Het ergste geval
Verreweg het grootste deel van de subsidies die bibliotheken ontvangen, is van gemeenten afkomstig. Door de kredietcrisis liepen de inkomsten van de gemeenten ernstig terug. Diverse gemeenten hadden ‘hun’ bibliotheek al laten weten dat die niet gespaard zou blijven bij de onvermijdelijke bezuinigingen die gingen volgen. Ons onderzoek moest inventariseren wat de verwachte omvang van de subsidiedaling zou zijn, en hoe de bibliotheekorganisaties die zouden denken op te vangen.
Uit het onderzoek kwam naar voren dat in het ergste geval dertig procent van de ongeveer duizend bibliotheken de deuren zou moeten sluiten. Dat klonk niet best. De VOB besloot een alarmerend persbericht uit te brengen. Daarin stond dat als de voorgenomen bezuinigingen werkelijkheid zouden worden, driehonderd bibliotheekvestigingen gesloten zouden worden. De nuancering (‘in het ergste geval’) kwam er niet in terug.
Rondzingen
Vanaf dat moment is het getal van 300 vestigingen – dertig procent van de duizend – gaan rondzingen. Dat het een poging tot beïnvloeding van de politiek was, ging verloren in de publieke discussie. Neem bijvoorbeeld een opiniestuk van auteur Philip Huff in NRC Handelsblad (21 november 2014):
“Maar voor een lezer heb je een bibliotheek nodig, en een boekwinkel, en bibliotheken verdwijnen dus, zoals de commissie-Cohen vaststelde – in de afgelopen tien jaar driehonderd vestigingen –, schoolbibliotheken hebben geen budget meer, en de boekhandels blijven leeg.”
De cijfers onder de loep
Hoe zit het dan wel? Laten we eens kijken naar de getallen zoals ze op de VOB-website staan. Hieronder een screenshotje van de actuele tabel op de VOB-site. Op 1 januari 2012 telde Nederland 1073 vestingen en hoofdvestigingen. En als je de tabel letterlijk neemt, waren er géén servicepunten, miniservicepunten, afhaalpunten, zelfbedieningsbibliotheken en geen bibliotheekbussen en -haltes.
Tabel op VOB-site (screenshot 26 mei 2017)
Als je de tabel opnieuw letterlijk neemt, zijn er amper een jaar later nog maar 843 (hoofd)vestigingen over. Oftewel: in 2012 zouden elke week een dikke vier vestigingen zijn gesloten. Nederlanders raken misschien opgewondener van een nieuw model iPhone of de laatste ruzie tussen Geer en Goor dan van een dreigende bibliotheeksluiting. Maar ik meen toch te kunnen stellen dat een dergelijke bibliothecaire annus horribilis aan de opiniepagina’s en de Handelingen der Tweede Kamer niet zo makkelijk was voorbijgegaan.
Maar, werpt u tegen, er waren begin 2013 wél ineens 220 servicepunten en een dikke honderd miniservicepunten. Plus nog eens 26 bussen die vijfhonderd haltes aandeden. Zo erg was de teloorgang dus ook weer niet.
Verfijndere tellingen
Enfin, u begrijpt inmiddels wel wat er aan de hand is. De getallen voor 2013 en de jaren erna zijn een stuk verfijnder. Had men in 2012 op dezelfde manier geteld, dan was men op vergelijkbare cijfers uitgekomen. Misschien waren er wat meer (hoofd)vestigingen die degradeerden tot (mini)servicepunten. De bezuinigingen hebben echt wel hun sporen nagelaten. Wat er echt gebeurde in de loop van 2012 is dat de registratie van vestigingen in de G!ds verfijnder is geworden. Dit werd in een discussie op Twitter bevestigd door Anton Dierdorp.
Was er begin 2012 op dezelfde verfijndere manier geteld, dan hadden we toen óók minder (hoofd)vestigingen en meer (mini)servicepunten gehad. De VOB had dit in of bij de tabel moeten vermelden. Dan was de misvatting er niet geweest en had (inmiddels: demissionair) minister Bussemaker de Kamer beter geïnformeerd.
Het ware beter geweest het cijfer voor 2012 helemaal niet te vermelden. Dan had het beeld er uitgezien als hieronder, en was duidelijker geworden dat vooral de bibliobussen zijn verdwenen. Ook was dan helder geweest dat die verdwenen halteplaatsen maar beperkt zijn gecompenseerd door (mini)servicepunten en afhaalpunten. Mogelijk wel door Bibliotheken op School, dat tussen 2012 en 2015 grofweg is verviervoudigd in het basisonderwijs (niet zelden ook in beleidsmatige samenhang met het terugbrengen van het aantal vestigingen en bushalteplaatsen). Eind 2016 waren er 2.534 Bibliotheken op School met een bereik van 562.500 leerlingen.
Bibliotheekvoorzieningen 2013-2016 (CC BY 4.0)
Slachting onder personeel
Resteert de vraag waarom dit niet eerder is opgemerkt – door de VOB zelf, door de ambtenaren bij OCW, en door geïnteresseerde anderen. Mijn vermoeden is dat dit niet opviel omdat de daling zo goed aansloot bij het alarmerende persbericht uit 2010 en het sindsdien rondzingende getal van 30 procent, zijnde driehonderd vestigingen, minder. Ik heb de partijen in de discussie volgend op de brief van Bussemaker geattendeerd op de vertekenende cijfers. Nu er vier maanden later nog niets is veranderd, vond ik het gepast om deze post te schrijven. Vooral omdat de mythe van de verdwenen vestigingen een veel belangrijker getal in de schaduw stelt: de slachting onder werkzame personen in de openbare bibliotheken.
Uit de landelijke statistieken die het Centraal Bureau voor de Statistiek (CBS) publiceert op basis van VOB-gegevens (uit andere bron: de jaarlijkse enquête onder haar leden) kun je opmaken dat in de periode 2010-2015 het aantal personeelsleden is gedaald met 24 procent. Uitgedrukt in arbeidsjaren gaat het om een daling van 20 procent. Ook de collecties – het aantal beschikbare materialen – zijn in die periode met 19 procent gedaald. Dit terwijl de inkomsten (‘baten’ bij het CBS) ‘slechts’ met tien procent afnamen.
Eigenlijke punt
De teruggang in inkomsten is dus bovenproportioneel afgewenteld op het personeelsbestand. Het zou mij niet verbazen dat dit is gebeurd omdat sluiting van een vestiging voor de burger én de gemeenteraad veel zichtbaarder is dan een reductie van openingsuren en afvloeiing van personeel. In een flink aantal gemeenten ging de bezuinigingsaanzegging daarom vergezeld van de opdracht om de vestigingen – of in elk geval zoveel mogelijk ervan – open te houden. Ja, dan rest er geen andere keuze voor het management om in het aanschafbudget te snijden en gekwalificeerd personeel te vervangen door vrijwilligers.
Personeelsleden en vrijwilligers in openbare bibliotheken (bron: FOBID)
En dat is het eigenlijke punt. We zouden er niet over peinzen om onze kinderen te laten onderwijzen door vrijwilligers. Of om doktersassistenten door vrijwilligers te vervangen (laat staan de huisarts of de chirurg). Niets ten nadele van de inzet en maatschappelijke bijdrage van vrijwilligers, maar openbaar bibliotheekwerk is een vak. In tijden van nepnieuws, alternatieve feiten en laaggeletterdheid – ook onder schoolverlaters – hebben we gekwalificeerde informatieprofessionals nodig in onze openbare bibliotheken. In volwaardige vestigingen die een substantieel deel van de week open zijn. Veel langer dan de maximaal vijftien uur die een servicepunt kennelijk maar open hoeft te zijn. Want wat heb je aan een gebouw met boeken waar de burger nog geen tien procent van de 168 uur die een week telt terecht kan? Dat is pas echt zonde van de publieke middelen. En geen mythe.
Naschrift 29 mei 2017:
Voor alle duidelijkheid: de site van de VOB vermeldt niet alleen de cijfers maar geeft ook de volgende interpretatie: “Met name in dit soort vestigingen [goed geoutilleerde vestigingen met 15 openingsuren of meer – FH] zien we een afname van ruim 300 over de laatste 5 jaar, ruim 28% minder.” Zie onderstaande screenshot en deze link naar de pagina (in Archive.org) zoals die was op 29 mei, twee dagen na publicatie van deze post.
Bewerkingsgeschiedenis
- 29 mei: naschrift toegevoegd.
- 2 juni: Zin toegevoegd over het aantal Bibliotheken op School per eind 2016, met dank aan Gerard Meijer, programmamanager Educatie van de Samenwerkende POI’s Nederland (SPN).
- 6 juni: figuur met ontwikkeling personeelsleden en vrijwilligers in openbare bibliotheken toegevoegd.
Posted by Frank Huysmans on 27 mei 2017 | Posted in beleid, onderzoek, opinie, vakpublicaties, WareKennis | Tagged bezuinigingen, bibliothecarissen, bibliotheekvestigingen, openbare bibliotheken, statistieken
|
Bron: @BerkeleyTrue (Medium), http://tinyurl.com/zlexsvv
Er is iets wat nog harder stijgt dan onze zeespiegel: de vloed aan data. Het is bijna niet meer voor te stellen, maar er is dus een tijd geweest waarin data – niet big, maar small – werden verzameld. Wetenschappers stelden een vragenlijst op. Die werd getest om evidente fouten eruit te halen. Enquêteboekjes werden gedrukt en enquêteurs gingen langs bij een duizendtal willekeurig geselecteerde personen. Ze belden aan.
Als het meezat, was de beoogde respondent thuis en genegen het onderzoek ter plekke te ondergaan. Zo niet, dan werd volgens een vaste instructie (‘sla linksaf en bij de eerste afslag opnieuw, en bel aan bij het derde huis rechts’) een ander huishouden benaderd. Aan het eind van de dag gingen de ingevulde enquêtes in een envelop naar het onderzoeksbureau, waar ze door datatypisten in de computer werden ingevoerd – aanvankelijk met ponskaarten, later rechtstreeks in een bestand.
Alle fasen in het proces werden nauwkeurig gemonitord om bijvoorbeeld fraude tegen te gaan – het was voor enquêteurs, ook maar mensen nietwaar, best verleidelijk om thuis in bed tien enquêtes in te vullen. Ook als de data eenmaal waren ingeklopt, vond er nog een strenge check plaats. Door mij bijvoorbeeld. We spreken over het jaar 1990 en mijn derde bijbaantje. Ik mocht zestig uur besteden aan het opschonen van de data uit een onderzoek met zo’n duizend respondenten. Vond ik al analyserend inconsistenties, zoals in 1800 geboren kleuters, dan dook ik in de ingevulde enquêteboekjes om het lek boven te krijgen.
Er is een race to the bottom van marktonderzoeksbureautjes die voor een prikkie een webenquête leveren.
Schreeuwend duur, dit. Internet en web hebben het een stuk goedkoper en sneller gemaakt, zoveel is zeker. Maar niet noodzakelijk beter. Er is een race to the bottom van marktonderzoeksbureautjes die voor een prikkie een webenquête leveren. En van managers en marketeers die met een persbericht over ‘een onderzoekje’ wat gratis publiciteit willen genereren.
Zou het tot marketing beperkt blijven, dan was het allemaal niet zo erg. Als de leugen ergens regeert, dan is het daar. Maar beleids- en opinieonderzoek, ter ondersteuning van de publieke zaak, raakt inmiddels ook geïnfecteerd. Steeds vaker hoor ik bij de minste kritiek op de opzet zeggen: ‘Ja, maar ons onderzoek had ook geen wetenschappelijke pretenties!’ Dat is als met een vals biljetje van 50 bij de Jumbo proberen te betalen en dan zeggen: ‘ja, maar ik heb ook nooit de pretentie gehad dat het echt was.’
De denkfout is dat het verschil tussen markt- en wetenschappelijk onderzoek gelegen zou zijn in de kwaliteit van de dataverzameling. Als er al verschil is tussen marktonderzoek en wetenschap, is die gelegen in de diepgang van de analyse. Data verzamelen is al zoveel goedkoper en sneller geworden dat we niet minder, maar meer zouden moeten investeren in de kwaliteit ervan. Net zoals bij onze dijken: in het publieke belang.
Deze column is verschenen in IP | Vakblad voor informatieprofessionals, jaargang 21 nummer 2, 9 maart 2017.
Posted by Frank Huysmans on 10 maart 2017 | Posted in columns, onderzoek, opinie, vakpublicaties | Tagged big data, data, data cleaning, data-analyse, dataverzameling
|