Benchmarking is een manier om verschillende benaderingen of methoden te vergelijken voor het uitvoeren van één enkele taak. Met deze techniek analyseren wetenschappers de sterke en zwakke punten van verschillende benaderingsmethoden en worden nieuwe inzichten verkregen. In de sociale wetenschappen is benchmarking een hulpmiddel om vast te vaststellen welke methoden en modellen het meest geschikt zijn om specifieke onderzoeksvragen te beantwoorden.
Deelnemers uit verschillende teams worden uitgedaagd om een bepaalde uitkomst te voorspellen. Na afloop van de challenge worden de prestaties van de teams geëvalueerd op basis van vooraf vastgestelde berekeningen en evaluatiecriteria. De deelnemers krijgen een trainingsdataset met een uitkomstvariabele (afhankelijke variabele) en een reeks voorspellende variabelen (onafhankelijke variabelen). Vervolgens trainen ze een model op deze dataset om de uitkomstvariabele te voorspellen op basis van de waarden van de voorspellers. Het model dat daaruit ontstaat wordt geëvalueerd aan de hand van de waarden in een holdout dataset; holdout-gegevens bevatten doorgaans ongeveer 20% van de waarnemingen die niet door de deelnemers zijn ingezien. De winnaar van de challenge is het team dat de doelvariabele het best kan voorspellen in de holdout-gegevens.
PreFer benchmarking challenge
Het doel van deze challenge is om de huidige voorspelbaarheid van vruchtbaarheidsuitkomsten in Nederland te meten en ons inzicht in vruchtbaarheid te vergroten.
Waarom we vruchtbaarheidsuitkomsten voorspellen in een data challenge?
In verschillende disciplines wordt uitgebreid onderzoek gedaan naar vruchtbaarheid vanwege het belang ervan voor mens en samenleving. Hoewel vele factoren invloed hebben op de vruchtbaarheidsresultaten, verklaren ze slechts gedeeltelijk de variatie in de resultaten en zijn we niet in staat om zelfs maar de kortetermijnveranderingen te verklaren. Wat missen we?
Met deze data challenge willen wij ons inzicht in vruchtbaarheid vergroten en bijdragen aan de verbetering van het sociaal beleid en de gezinsplanning. Door te meten hoe nauwkeurig verschillende factoren en modellen vruchtbaarheidsresultaten van nieuwe cases voorspellen, wordt duidelijk welke factoren belangrijker zijn. Met deze kennis kunnen we mensen helpen bij de gewenste gezinsgrootte en kan de reikwijdte van mogelijke interventies worden beperkt. Door verschillende modellen (bijv. theorie- en datagestuurd) in een data challenge te vergelijken en te interpreteren, kunnen nieuwe factoren aan het licht komen die nu nog over het hoofd worden gezien in vruchtbaarheidstheorieën. Daarnaast kan duidelijk worden welke kennis we nog missen (bijv. belangrijke interacties of niet-lineaire effecten).