Benötigte Lesezeit: 2 Minuten
Maschinelles Sehen (engl. Computer Vision) ist ein Teilbereich des maschinellen Lernens. Computer identifizieren wiederkehrende Muster in Bildern und erkennen so Objekte wie z.B. eine Katze. (Was wäre das Internet ohne Katzen?)
Grundlage für diese Technologie ist eine umfassende Bilddatenbank, die das Tier in unterschiedlichen Positionen, Belichtungen oder Umgebungen darstellt. Noch vor wenige Jahren wurden Maschinen durch die manuelle Vorgabe von Begriffen trainiert. Menschen gingen Bild für Bild durch und tagten jede Datei einzeln mit dem treffenden Begriff. Heute entwickeln Tech-Experten komplexe Modelle (künstliches neuronales Netz), die versuchen das menschliche Sehen und Verstehen nachzuahmen. Maschinen benötigen keine Tags mehr, sondern lernen eigenständig.
So funktioniert maschinelles Sehen
Ein Algorithmus klassifiziert dazu jedes einzelne Foto und weist dem dargestellten Objekt eigenständig Schlagworte zu. Stark vereinfacht, wird dazu ein Raster über ein Foto gelegt, welches das Bild in viele einzelne Quadrate unterteilt. Jedes einzelne Viereck symbolisiert ein Merkmal. Die Features mehrerer Bilder werden dann automatisch verglichen und Muster erkannt. Anschließend wird berechnet, mit welcher Wahrscheinlichkeit das Objekt tatsächlich z.B. eine Katze ist. Die Maschine “sieht” also visuelle Inhalte mit Hilfe von Statistik und Informatik.
Anwendungsbeispiele für maschinelles Sehen
Auf diese Weise ist etwa Google in der Lage eine Katze mit 80%iger Genauigkeit zu identifizieren und benötigt dafür gerade mal 40 Zeilen Code. Diese Zahl sollte jedoch nicht unterschätzt werden. Denn der dafür benötigte Programmiervorgang ist komplex und langwierig.
Maschinelles Sehen steckt z.B. hinter der Google Fotosuche oder der Google Fotos App. Weitere Anwendungsbeispiele sind die Gesichtserkennung, etwa beim Hochladen von Bildern auf Facebook, oder die visuelle Suche. Facebook kombiniert die Bildklassifizierung außerdem mit der Verarbeitung natürlicher Sprache: Das automatisch erkannte Objekt wird zusätzlich laut ausgesprochen. So können auch Blinde visuelle Inhalte verstehen.
Mein Fazit: Maschinelles Sehen hat in den letzten Jahren riesige Fortschritte gemacht und bereichert nun unseren (visuellen) Alltag. Dennoch können komplexere Zusammenhänge noch nicht vollständig durch Maschinen erfasst werden. Das menschliche Auge bleibt am Ende der Sieger beim Erkennen von Bildinhalten.
Wer sich im Detail mit dem technischen Hintergrund vertraut machen möchte, dem empfehle ich den kostenlosen (englischsprachigen) Online-Kurs von Google zum Thema Bildklassifizierung. Alternativ hilft dieses YouTube-Video von Phils Physics die Hintergründe zu verstehen.
Quellen:
www.techcrunch.com/2016/04/30/why-image-recognition-is-about-to-transform-business/
https://developers.google.com/machine-learning/practica/image-classification/
www.research.fb.com/category/computer-vision/
Titelbild: DALLE 2
Vielen Dank für den tollen Beitrag. Gut zu wissen, dass maschinelles Sehen ein Teilbereich des maschinellen Lernens ist, wobei Computer wiederkehrende Muster in Bildern identifizieren und so Objekte wie z.B. eine Katze erkennen. Spannend, dass die Grundlage für diese Technologie eine umfassende Bilddatenbank ist, die das Objekt in unterschiedlichen Positionen, Belichtungen oder Umgebungen darstellt. Ich finde solche technologischen Entwicklungen sehr interessant und lerne gerne mehr darüber. Um mich detaillierter zu informieren, suche ich also gerade einen Experten für Bildverarbeitung bzw. Maschine Vision.
Hallo Paul! Es freut mich, dass dir der Beitrag gefällt. Alles Gute für deine weitere Wissensreise!