Normalisatie is een stap in datavoorbewerking waarbij waarden worden herschaald naar een vergelijkbaar bereik. Dit voorkomt dat grote getallen onevenredig veel invloed hebben op het leerproces van een model.
Dit artikel is onderdeel van de AI Woordenlijst op De Wereld van AI. Daar vind je een overzicht van alle belangrijke AI-begrippen.
Hoe werkt normalisatie?
Datasets bevatten vaak kenmerken met verschillende schalen. De ene kolom loopt bijvoorbeeld van 1 tot 10, terwijl een andere waarden van 1.000 tot 100.000 heeft.
Zonder dit proces kan een model te veel gewicht geven aan de grootste getallen. Daarom worden waarden eerst omgerekend naar een vergelijkbaar niveau.
Daardoor kan een model de data eerlijker en nauwkeuriger verwerken.
Waarom normalisatie belangrijk is
Veel algoritmes werken met afstanden, gewichten en vergelijkingen tussen waarden. Normalisatie helpt dan om beter te leren.
Belangrijke voordelen zijn:
- snellere training
- stabielere berekeningen
- betere convergentie
- minder kans op numerieke fouten
- eerlijkere bijdrage van kenmerken
Daarom wordt het vaak toegepast vóór modeltraining.
Veelgebruikte vormen van normalisatie
Er bestaan meerdere methoden:
Min-max normalisatie
Schaalt waarden meestal tussen 0 en 1.
Z-score normalisatie
Centreert data rond het gemiddelde met standaarddeviatie 1.
Schaling naar vast bereik
Bijvoorbeeld tussen -1 en 1.
De juiste keuze hangt af van de data en het gebruikte algoritme.
Normalisatie in de praktijk
Het wordt veel gebruikt bij machine learning, neurale netwerken en voorspellende modellen. Vooral wanneer meerdere kenmerken samen worden gebruikt, helpt deze stap om stabielere resultaten te krijgen.
Bij beelddata of sensordata kan normalisering ook de prestaties verbeteren.
Beperkingen van normalisatie
Het maakt data beter bruikbaar, maar lost inhoudelijke problemen niet op. Foute, onvolledige of bevooroordeelde data blijft problematisch, ook na herschaling.
Daarom blijft datakwaliteit minstens zo belangrijk als techniek.
Relatie met AI en ethiek
Normalisatie verbetert de technische prestaties, maar lost geen problemen in de data zelf op. Als inputdata bevooroordeeld is, blijft dat ook na normalisering zichtbaar. Daarom blijft aandacht voor datakwaliteit en AI & Ethiek essentieel.
Verder leren
Wil je stap voor stap begrijpen hoe data wordt voorbereid en gebruikt in AI-modellen? Bekijk dan de gratis basiscursus AI op De Wereld van AI.
Kijk je liever video’s, dan vind je op het YouTube kanaal De Wereld van AI duidelijke uitleg over AI in gewone taal en zonder technisch jargon.