Evaluatie van modellen: hoe AI wordt getest

Wat is evaluatie van modellen?

Evaluatie van modellen verwijst naar het beoordelen van hoe goed een AI– of machinelearningmodel zijn taak uitvoert. Voordat een model wordt gebruikt in de praktijk, wordt het uitgebreid getest met data die het nog niet eerder heeft gezien. Zo kun je zien of het model nauwkeurig, eerlijk en betrouwbaar werkt.

Dit artikel is onderdeel van de AI Woordenlijst op De Wereld van AI. Daar vind je een overzicht van alle belangrijke AI-begrippen.

Hoe je modellen beoordeelt

Bij evaluatie kijk je naar verschillende aspecten. Je controleert hoe vaak het model goede voorspellingen doet en hoe vaak het fouten maakt.

Daarnaast kijk je naar de impact van die fouten. Benadeelt het model bepaalde groepen? Of maakt het vooral fouten in specifieke situaties?

Daarom helpt evaluatie je om te bepalen of een model veilig en betrouwbaar inzetbaar is.

Belangrijke meetwaarden bij evaluatie van modellen

Veelgebruikte evaluatiematen zijn bijvoorbeeld nauwkeurigheid, precisie, recall en de F1-score.

Nauwkeurigheid geeft aan welk deel van alle voorspellingen correct was, maar kan misleidend zijn wanneer één categorie veel vaker voorkomt dan de andere.
Precisie laat zien hoe vaak een model gelijk heeft op het moment dat het iets positiefs voorspelt.
Recall geeft aan hoe goed het model in staat is om alle positieve gevallen te vinden. Oftewel hoeveel van de gevallen die het model had moeten vinden, het ook echt gevonden heeft.
- Voorbeeld:
  - Stel dat een model e-mails met spam moet herkennen. Er zijn 100 spam-mails, maar het model herkent er maar 80 als spam.
  - Dan is de recall 80 procent, omdat het 80 van de 100 daadwerkelijke spamberichten vond.
  - Het woord positieve gevallen betekent simpelweg: de voorbeelden die echt tot de categorie behoren die je zoekt, zoals spam, een longontsteking op een foto, of een fraudetransactie. Het heeft niets te maken met positieve of negatieve gevoelens, maar met de categorie die je probeert te detecteren.
De F1-score combineert precisie en recall tot één getal, zodat je beter kunt zien of het model in balans presteert.

Bij complexere taken, zoals beeldherkenning of taalmodellen, worden vaak aanvullende benchmarks gebruikt. Het doel is altijd hetzelfde: zeker weten dat het model doet wat het moet doen, onder verschillende omstandigheden.

Voorbeeld van evaluatie van modellen

Stel dat een model spam e-mails moet herkennen. Er zijn 100 spam berichten en het model herkent er 80 correct.

In dat geval is de recall 80 procent. Het model vindt dus 80 van de 100 gevallen die het had moeten herkennen.

Met dit soort voorbeelden zie je hoe belangrijk het is om verder te kijken dan alleen één meetwaarde.

Evaluatie bij complexere AI

Bij complexere toepassingen, zoals beeldherkenning of taalmodellen, gebruik je vaak aanvullende tests. Denk aan benchmarks of scenario’s waarin je het model onder verschillende omstandigheden controleert.

Daarnaast blijf je evalueren, ook nadat een model in gebruik is. Zo voorkom je dat prestaties verslechteren of dat nieuwe fouten ontstaan.

Verder leren

Wil je leren hoe AI-modellen worden getraind en getest, met praktische voorbeelden en zonder technisch jargon? In mijn Gratis Basiscursus AI leg ik dit stap voor stap uit in begrijpelijke taal.

Kijk je liever dan je leest, dan vind je op het YouTube kanaal De Wereld van AI video’s waarin AI stap voor stap wordt uitgelegd.

DE WERELD VAN AI