Classificatie En Verder

Zodra features kunnen worden geëxtraheerd—ofwel via handgemaakte filters of automatisch geleerd met CNN’s—is de volgende logische stap classificatie: bepalen wat een afbeelding bevat.

Wanneer je een foto uploadt en je telefoon stelt “hond”, “strand” of “verjaardag” voor, is dat classificatie in actie. In de eenvoudigste vorm betekent classificatie dat de gecomprimeerde, geleerde representatie van een afbeelding wordt toegewezen aan één of meer categorieën.

Maar computer vision stopt niet bij het classificeren van volledige afbeeldingen. Moderne systemen detecteren meerdere objecten, segmenteren precieze regio’s en genereren zelfs natuurlijke taalbeschrijvingen. Classificatie is slechts het startpunt naar rijker visueel begrip.


De Basis: Beeldclassificatie

De eenvoudigste opzet is single-label classificatie: elke afbeelding behoort tot precies één categorie.

  • Een cijferafbeelding: “3” en niet “7”.
  • Een medische scan: “tumor” of “gezond”.
  • Een natuurfoto: “olifant” en niet “neushoorn”.

De pipeline ziet er inmiddels vertrouwd uit:

  1. Input: Afbeelding → pixelmatrix.
  2. Feature-extractie: CNN-lagen leren randen, texturen, vormen.
  3. Representatie: Gevlakte featurevector.
  4. Classifier: Volledig verbonden lagen + activatiefunctie → waarschijnlijkheidsverdeling over klassen.

Net als in NLP-voorspellingen werken we hier opnieuw met waarschijnlijkheden! Het model zegt niet “100% kat”, maar geeft iets als dit terug:

Pipeline van beeldinput naar uiteindelijke classificatiewaarschijnlijkheden

Verder Gaan: Voorbij Simpele Labels

De meeste echte afbeeldingen bevatten meer dan één object. Alleen classificatie kan je niet vertellen waar dingen zijn of hoe ze interageren. Dit leidde tot nieuwe taken die dezelfde principes uitbreiden.

Multi-Label Classificatie: Een afbeelding kan tegelijk tot meerdere categorieën behoren. Een strandselfie kan bijvoorbeeld worden getagd als persoon + oceaan + zonnebril.

Objectdetectie: Detecteert en lokaliseert meerdere objecten en tekent bounding boxes om elk object:

  • “Hond”[x1,y1,x2,y2][x_1,y_1,x_2,y_2]
  • “Fiets”[x3,y3,x4,y4][x_3,y_3,x_4,y_4]

De output van het model kan er zo uitzien:

Voorbeeld van objectdetectie met bounding boxes voor hond en bal

Semantische Segmentatie: Gaat pixel-voor-pixel en labelt elke pixel als “weg”, “auto” of “lucht”. Dit is cruciaal voor zelfrijdende auto’s die precies moeten weten welke pixels bij voetgangers versus asfalt horen.

Instance Segmentatie: Een stap verder—onderscheidt individuele objecten van hetzelfde type. Niet alleen “drie mensen” maar “Persoon 1, Persoon 2, Persoon 3”, elk met een eigen masker.

Scènebegrip: Kijkt voorbij objecten naar context. Is dit een “keuken”, “bos” of “snelweg”? Scèneclassificatie helpt systemen redeneren over waar ze zich bevinden, niet alleen wat ze zien.


Praktische Toepassingen

Classificatie en de uitbreidingen ervan drijven veel van de meest zichtbare computer vision-systemen van vandaag aan.

🏥 Medische Diagnostiek: Classificeer borst-röntgenfoto’s als longontsteking vs. heldere longen, of huidbeelden als goedaardig vs. kwaadaardig.

🚗 Autonome Voertuigen: Detecteer voetgangers, classificeer verkeerslichten, segmenteer rijbanen. Dit is een voorbeeld van semantische segmentatie:

Voorbeeld van semantische segmentatie waarbij weg, auto’s en mensen gelabeld zijn

📱 Sociale Media: Tag automatisch gezichten, herken objecten voor zoekopdrachten (“toon alle foto’s met fietsen”).

🌳 Milieumonitoring: Classificeer satellietbeelden voor ontbossing, gewasgezondheid of natuurrampschade.


De Uitdaging Van Fijnmazige Classificatie

Niet alle classificatie is eenvoudig. Sommige taken vereisen het onderscheiden van categorieën die er extreem vergelijkbaar uitzien:

  • Vogelsoorten die alleen verschillen door een klein streepje op de vleugel.
  • Automodellen van dezelfde fabrikant, hetzelfde jaar en dezelfde kleur.
  • Medische beelden met subtiele pathologische tekenen.

Deze fijnmazige taken dwingen visiesystemen zeer precieze features te leren en vereisen vaak door experts gelabelde data.

🩻 Medische Detectie Voorbeeld: Voor artsen kan het onderscheiden van twee huidaandoeningen afhangen van textuurverschillen die voor leken onzichtbaar zijn. CNN’s kunnen worden getraind om deze subtiele variaties te detecteren—maar alleen als ze genoeg zorgvuldig geannoteerde gevallen te zien krijgen.


Classificatie In Context

Een beperking van traditionele classificatie is dat het vaak context negeert.

  • Een losse honkbalknuppel kan worden geclassificeerd als “stok”. Maar zet hem naast een handschoen en veld, en het systeem herkent “honkbal.”
  • Een ronde oranje vorm kan een basketbal of een sinaasappel zijn—de omliggende pixels beslissen.

Dit is waar nieuwere architecturen (zoals attention-mechanismen en transformers, die we later zullen verkennen) modellen helpen relaties in de hele scène te overwegen.


Van Classificatie Naar Generatie

De sprong van herkennen “wat er is” naar “voorstellen wat zou kunnen zijn” komt uit dezelfde wortels. Modellen die rijke visuele representaties leren voor classificatie kunnen die features hergebruiken voor het genereren van beelden.

  • Een classifier die katten herkent heeft filters voor snorharen, vacht, oren.
  • Een generator kan die features hergebruiken om een kattenbeeld vanaf nul te construeren.

Classificatie legde in die zin de basis voor moderne generatieve visiemodellen—op dezelfde manier als tekstclassificatie de weg bereidde voor large language models.


Belangrijkste Inzichten

Beeldclassificatie is de toegangstaak van computer vision. Beginnend met hele-beeldcategorieën breidde het zich natuurlijk uit naar objectdetectie, segmentatie en scènebegrip—taken die AI-waarneming dichter bij menselijke visie brengen. Deze systemen hebben nu al impact in de praktijk in geneeskunde, transport, retail en milieumonitoring.

Maar classificatie is niet het eindpunt van visie. Het is de brug: van lokale patronen naar volledige scènebegrip, en van herkenning naar generatie. Dezelfde features die krachtige classifiers aandrijven, vormen ook de basis van de generatieve modellen die nu volledig nieuwe beelden creëren.