DE WERELD VAN AI

Simpele uitleg over kunstmatige intelligentie

Evaluatie van modellen

Dit artikel is onderdeel van de AI Woordenlijst op De Wereld van AI. Daar vind je een overzicht van alle belangrijke AI-begrippen.

Evaluatie van modellen verwijst naar het beoordelen van hoe goed een AI– of machinelearningmodel zijn taak uitvoert. Voordat een model wordt gebruikt in de praktijk, wordt het uitgebreid getest met data die het nog niet eerder heeft gezien. Zo kun je zien of het model nauwkeurig, eerlijk en betrouwbaar werkt.

Bij evaluatie wordt gekeken naar verschillende aspecten, zoals hoe precies het model voorspelt, hoe vaak het fouten maakt en of die fouten bepaalde groepen mensen benadelen. Dit proces is essentieel om te begrijpen of een model veilig inzetbaar is.

Veelgebruikte evaluatiematen zijn bijvoorbeeld nauwkeurigheid, precisie, recall en de F1-score.

  • Nauwkeurigheid geeft aan welk deel van alle voorspellingen correct was, maar kan misleidend zijn wanneer één categorie veel vaker voorkomt dan de andere.
  • Precisie laat zien hoe vaak een model gelijk heeft op het moment dat het iets positiefs voorspelt.
  • Recall geeft aan hoe goed het model in staat is om alle positieve gevallen te vinden. Oftewel hoeveel van de gevallen die het model had moeten vinden, het ook echt gevonden heeft.
    • Voorbeeld:
      • Stel dat een model e-mails met spam moet herkennen. Er zijn 100 spam-mails, maar het model herkent er maar 80 als spam.
      • Dan is de recall 80 procent, omdat het 80 van de 100 daadwerkelijke spamberichten vond.
      • Het woord positieve gevallen betekent simpelweg: de voorbeelden die echt tot de categorie behoren die je zoekt, zoals spam, een longontsteking op een foto, of een fraudetransactie. Het heeft niets te maken met positieve of negatieve gevoelens, maar met de categorie die je probeert te detecteren.
  • De F1-score combineert precisie en recall tot één getal, zodat je beter kunt zien of het model in balans presteert.

Bij complexere taken, zoals beeldherkenning of taalmodellen, worden vaak aanvullende benchmarks gebruikt. Het doel is altijd hetzelfde: zeker weten dat het model doet wat het moet doen, onder verschillende omstandigheden.

Wil je leren hoe AI-modellen worden getraind en getest, met praktische voorbeelden en zonder technisch jargon? In mijn Gratis Basiscursus AI leg ik dit stap voor stap uit in begrijpelijke taal.

Voorbeelden

  • Een spamfilter testen op hoe goed het echte e-mails doorlaat.
  • Een beeldherkenningsmodel controleren op fouten bij verschillende soorten foto’s.
  • Een taalmodel onderzoeken op onnauwkeurigheden of bias in antwoorden.

Gerelateerde termen