Selecteer de taal

Met betrekking tot het beheer van onderzoeksdata vertel ik mensen vaak hoe belangrijk het is om een dataset te beschrijven als "wat het is" in plaats van "hoe je het gebruikt".

Een voorbeeld dat mij al een tijd geleden werd gegeven door een biobankexpert in Nederland was de beschrijving van een röntgenfoto van de borstkas: hoogstwaarschijnlijk kan zo'n beeld zowel worden gebruikt om het bot in de wervelkolom te bestuderen als om de toestand van de grote slagaders (bijvoorbeeld de aorta) te bekijken. Als een dergelijke röntgenfoto wordt verkregen, is het waarschijnlijk dat deze slechts voor één doel is gemaakt, maar dat sluit hergebruik op het andere gebied niet uit. Om de herbruikbaarheid van de gegevens te optimaliseren (zie de FAIR-principes), moet een thoraxfoto het label "thoraxfoto" krijgen en niet "röntgenfoto van de wervelkolom", zelfs als deze voor dat specifieke doel is gemaakt.

Ik denk dat dit vergelijkbaar is met een "boekenkast". De meeste "boekenkasten" zijn eigenlijk "planken". Die planken kunnen gebruikt worden om boeken in op te bergen, maar kunnen ook voor andere doeleinden gebruikt worden. Om de vindbaarheid van de juiste opbergoplossing in de winkel te optimaliseren, zou het handig zijn als het label geen specifiek gebruik uitdrukt.

Onlangs hoorde ik nog een heel mooi voorbeeld van hetzelfde principe in een aflevering van de SE-radio-podcast: Functienamen bij het schrijven van computercode. Het verbetert de menselijke leesbaarheid van computersoftware (en dus de onderhoudbaarheid) sterk als elke functie wordt genoemd naar wat het doet, in plaats van naar hoe het wordt gebruikt. Het voorbeeld uit de podcast: noem de functie niet "reformat_email", maar noem hem "remove_double_newlines" als dat is wat hij doet.

Ik heb iemand ooit horen zeggen "Onderzoekers zijn heel slecht in staat de mogelijkheden voor hergebruik van hun eigen data te beoordelen". Het is waar: een onderzoeker die de aorta bestudeert, zal op zijn eigen röntgenfoto's niet eens de ruggengraat zien, laat staan nadenken over manieren waarop de gegevens kunnen worden hergebruikt door botonderzoekers. Ik denk dat het labelen van een dataset met hoe deze wordt gebruikt hier een gevolg van is. Een getrainde bibliothecaris/archivaris, met training in classificatiesystemen, zal zo'n fout snel doorzien en een betere naamgeving voorstellen.