Benchmarking bij onderzoeks-evaluaties: we kunnen zonder
Het Strategy Evaluation Protocol (SEP) 2021-2027 stelt benchmarking als een methode voor de evaluatie van onderzoekseenheden voor. Maar wat houdt dat precies in en wat zijn de gevaren daarbij? Onze auteurs duiken er dieper in en laten zien waar mogelijkheden liggen en wat je beter niet kan doen.
(To read the English version, click here)
Bij iedere evaluatie van wetenschappelijk onderzoek ligt de vraag voor de hand: hoe presteert een onderzoekseenheid in vergelijking met anderen, nationaal en internationaal? Die vraag is makkelijker gesteld dan beantwoord, want een antwoord laat zich niet gemakkelijk onderbouwen. In het Strategy Evaluation Protocol (SEP) 2021-2027, dat richtlijnen geeft voor de verplichte periodieke evaluatie van het onderzoek van Nederlandse universiteiten en onderzoeksinstituten van de KNAW en het nationale onderzoeksfonds NWO, wordt weliswaar gewezen op benchmarking als een mogelijke manier om robuuste data te genereren, maar daarbij wordt niet uitgelegd wat precies onder deze techniek/methodologie moet worden verstaan en hoe die precies is te operationaliseren. En dat is niet zonder gevaar, want er kleven nogal wat bezwaren tegen benchmarking in de strikte betekenis van een op kwantitatieve criteria (tijd, kosten, opbrengsten) gebaseerde vergelijking van prestaties. Met het oog op de lopende voorbereiding van het nieuwe SEP voor de periode 2027-2033 is het daarom verstandig benchmarking als methode kritisch tegen het licht te houden, zonder de idee van vergelijking als zodanig volledig in de ban te willen doen.
Een problematisch instrument
Op pagina 19 van het SEP wordt benchmarking geïntroduceerd als een mogelijke manier om robuuste data te genereren: ‘Other sources of robust data may include benchmarking against peer research units [..]’. Anders gezegd: naast de door de eenheid geselecteerde indicatoren en casestudies om de kwaliteit en impact van het onderzoek te tonen, kan benchmarking worden ingezet ter onderbouwing van de narratieve argumenten in de zelfevaluatie. Wat precies onder benchmarking moet worden verstaan, wordt evenwel niet duidelijk, maar gesuggereerd wordt dat benchmarking en kwantitatieve indicatoren, in een soort mengvorm, een doeltreffende onderbouwing kunnen bieden.
Die aanname is, op z’n zachtst gezegd, problematisch. Het begint er al mee dat hier een techniek wordt voorgesteld zonder aan te geven hoe deze te operationaliseren. Dat probleem wordt knellender wanneer wordt uitgegaan van de gangbare definitie voor benchmarking: het vergelijken van bedrijfsprocessen en prestatiestatistieken van een instelling of bedrijf met best practices van andere bedrijven en instellingen in dezelfde of vergelijkbare branche, waarbij doorgaans gemeten wordt op de dimensies kwaliteit, tijd en kosten. De zuiver kwantitatieve criteria waarop een dergelijke vergelijking van prestaties doorgaans is gestoeld, staan evenwel op gespannen voet met de geest en het doel van het SEP. Daarin ligt de nadruk immers op een toetsing van de kwaliteit en impact vanuit het perspectief van de eigen missie en de daaraan verbonden strategie, waarvoor het gebruik van ogenschijnlijk ‘objectieve’ metrische criteria (JIF, h-index) als ongeschikt worden gekwalificeerd.
Maar dat is zeker niet het enige probleem. Het ontbreken van een heldere definiëring en operationalisering wekt de suggestie dat een dergelijke operatie op grond van kwantitatieve gegevens relatief makkelijk is, terwijl zij in feite zowel op inhoudelijke als ethische gronden buitengewoon problematisch en derhalve af te raden is.
Ongelijke data
Het ontbreken van een heldere definiëring en operationalisering voor benchmarking in het kader van onderzoeksevaluaties impliceert dat er ook geen criteria zijn om te bepalen waaraan het vergelijkingsmateriaal aan moet voldoen. Daarmee wordt de deur opengezet voor toeval, willekeur en opportunisme. Dat geldt, om te beginnen, voor de keuze van de onderzoekseenheden die in de benchmarking worden meegenomen. Een weinig ambitieuze keuze voor benchmark-eenheden kan een goede uitkomst opleveren in het evaluatieproces, maar hoeft niet per se de beste uitkomst te zijn op de langere termijn; omgekeerd kan een te ambitieuze keuze leiden tot een negatieve uitkomst waar dit niet nodig had hoeven zijn.
Minstens zo problematisch bij kwantitatieve benchmarking is de ongelijkheid in de beschikbaarheid en de aard van de onderliggende data. Ten aanzien van de eigen onderzoekseenheid heeft men vaak wel een goed zicht op het verzamelde materiaal, afkomstig uit lokale informatiesystemen (zoals Pure of Metis, maar ook Converis) en opgesteld volgens bekende criteria, maar die informatie heeft men zelden als het gaat om de data van de eenheden die ter vergelijking in de benchmark figureren. Dat geldt a fortiori voor instellingen in het buitenland, waar andere systemen en normen dominant zijn. Het gebrek aan inzicht in de wijze waarop data zijn verzameld en welke waarde ze vertegenwoordigen doet ernstig afbreuk aan de validiteit van de uiteindelijke vergelijking, vaak zonder dat men zich hiervan bewust is.
Bij een vergelijking op basis van kwantitatieve indicatoren wordt ervan uit gegaan dat deze indicatoren de eenheden op een gelijke wijze representeren. Dat is evenwel maar in zeer beperkte mate het geval. Dit probleem laat zich treffend illustreren in de praktijk van veldnormalisatie, die in bibliometrische studies wordt ingezet om de verschillen in referentiegedrag in uiteenlopende publicatie- en referentieculturen per vakgebied te compenseren. Zolang het gaat om het vergelijken van twee verwante specialismen, zoals cardiologie en oncologie, is een dergelijke normalisering zinvol om tot een vergelijking te komen. Maar dat wordt anders wanneer in een studie uiteenlopende vakgebieden - of zelfs hele universiteiten - worden geanalyseerd en vergeleken. Theoretisch gezien zou men de aantallen citaties na veldnormalisatie kunnen vergelijken, maar daarbij wordt dan wel voorbijgegaan aan de soms enorme verschillen in publicatiecultuur. Voor natuurkundigen – bijvoorbeeld - zou je kunnen vaststellen dat tussen de 80-85% van alle publicaties wel in internationale tijdschriften zijn gepubliceerd, waarmee men dus een redelijk goed beeld heeft van de output van die eenheid. Voor veel domeinen binnen de geesteswetenschappen, zoals de historische en literaire wetenschappen, liggen de verhoudingen evenwel heel anders, waarbij een substantieel deel van de resultaten worden gepubliceerd in de vorm van boeken en boekhoofdstukken, dikwijls ook in andere talen dan het Engels die niet in de systemen zoals Scopus en Web of Science voorkomen. Dergelijke verschillen bestaan zelfs binnen vakgebieden, waarbij meer toepassingsgerichte specialismen heel andere communicatiekanalen inzetten. Kortom, het ‘vergelijkbaar’ maken van kwantitatieve gegevens kunnen allicht leiden tot een eenzijdig en vertekend beeld van de kwaliteit en impact van onderzoekseenheden en de door hen voorgestane strategische keuzes.
Ethische bezwaren
Een laatste punt betreft de ethiek van dit proces. De data van de eigen eenheid zijn – als het goed is – gecontroleerd en gevalideerd als valide materiaal voor evaluatiedoeleinden. Maar dat geldt niet voor het materiaal dat gebruikt wordt voor de benchmark-eenheden: die kunnen op een andere manier of met een heel ander doel zijn verzameld. Kwaliteitscontroles op dat materiaal zou om die reden een eerste vereiste zijn, maar dat vraagt uiteraard om toestemming van de eigenaar van deze data. Los daarvan is het gebruik van data zonder toestemming ethisch onverantwoord, vooral in het licht van het gegeven dat in Nederland de resultaten van de evaluatie openbaar gemaakt dienen te worden, waarmee de reputatie en het imago van de benchmark-eenheden zouden kunnen worden beschadigd.
Tot slot
Op grond van het voorgaande kan niet anders dan worden geconcludeerd dat benchmarking in de betekenis van een op kwantitatieve criteria (tijd, kosten, opbrengsten) gebaseerde vergelijking van prestaties op zowel theoretische als ethische gronden in de meeste gevallen ongeschikt is voor evaluaties in de zin van het SEP. Dat wil evenwel niet zeggen dat een vergelijking, of, zo men wil: benchmarking in een minder strikte betekenis van de term, zinvol kan zijn. De eigen positie, missie en strategie zouden daarbij als vertrekpunt moeten fungeren, als een manier om de onderzoekseenheid, vanuit een meer kwalitatieve perspectief, scherper neer te zetten. Zo’n spiegel, bijvoorbeeld in de vorm van een casestudy, kan buitengewoon zinvol.
Header image: Estúdio Bloom on Unsplash.
DOI: 10.59350/crbvf-qkw52 (export/download/cite this blog post)
0 Comments
Add a comment