Dit artikel is onderdeel van de AI Woordenlijst op De Wereld van AI. Daar vind je een overzicht van alle belangrijke AI-begrippen.
Een dataset is een verzameling gegevens die gebruikt wordt om een AI-model te trainen, testen of evalueren. De gegevens in een dataset zijn gestructureerd of ongestructureerd en bevatten voorbeelden waarvan een model leert, zoals teksten, foto’s, audiofragmenten of tabelgegevens.
Een dataset bepaalt in grote mate wat een AI-model kan leren. Als de data divers, volledig en duidelijk gelabeld is, presteert het model vaak beter. Onvolledige of scheve datasets kunnen juist leiden tot fouten of ongewenste voorkeuren in het model. Daarom is het belangrijk dat gegevens zorgvuldig gekozen, verwerkt en gecontroleerd worden. Op mijn pagina AI & Dataregels leg ik uit welke principes daarbij komen kijken en waarom dat zo belangrijk is voor betrouwbare AI.
Datasets worden gebruikt in bijna alle AI-toepassingen die je in het dagelijks leven tegenkomt, van chatbots en zoekmachines tot medische analyses en beeldherkenning.
Wie wil begrijpen hoe AI-modellen leren, begint bijna altijd bij de dataset, omdat de kwaliteit van de data de kwaliteit van het uiteindelijke model bepaalt.
Wil je helder begrijpen hoe AI-modellen werken en waarom datasets zo belangrijk zijn? In mijn Gratis Basiscursus AI leg ik dit stap voor stap uit in begrijpelijke taal.
Voorbeelden
- Een map met duizenden foto’s van katten en honden, gebruikt om een model dieren te laten herkennen
- Een groot spreadsheet met klantgegevens voor een voorspellend model
- Een tekstverzameling met miljoenen zinnen om een taalmodel te trainen