Bilderkennung: Vollautomatisch Objekte erkennen und unterscheiden
Wir haben wieder den KI-Experten Martin Schiele, Geschäftsführer der AI-UI GmbH, weiterführend zum Thema Künstliche Intelligenz befragt. Im Gespräch ging es in dieser Runde um Bilderkennung durch KI-Methoden. Dafür hat Herr Schiele erklärt, wie dieser Prozess funktioniert und welches Verfahren dafür genutzt wird. Im Anschluss haben wir uns verschiedene Beispiele angeschaut – sowohl aus dem Alltagsbereich als auch aus dem unternehmerischen Kontext.
Was heißt Bilderkennung via KI?
Es ist genauso, als ob Sie sich selbst ein Bild ansehen. Sie schauen darauf und schlagartig klassifizieren sie es aufgrund verschiedener Merkmale als Familienfoto, Werbung, Landschaft, Tiere oder etwas anderes bestimmtes. Dabei können wir Menschen oft selbst gar nicht sagen, woran wir das genau fest machen.
Wie genau funktioniert das?
Nehmen wir als Beispiel ein sehr bekanntes Dataset. Das sogenannte MNIST Dataset. Dabei möchte man auf einem Bild, dass 28×28 Pixel groß ist, handgeschriebene Ziffern unterscheiden können.
Jeder der Pixel hat einen Helligkeitswert von 0 bis 255, wobei 255 Weiß und 0 Schwarz bedeutet. Dazwischen bilden sich Grauwerte aus. Folgendes geschieht: Man nimmt tausende von handgeschriebenen Beispielen als Input. Alle 28×28 = 748 Pixel, die in verschiedenen Schreibvarianten auftreten, werden einem Label (der Ziffer) zugeordnet und zu einem neuronalen Netz trainiert. Dieses Netz merkt sich, welche Pixelkombination zu welchem Label (der Ziffer) gehört. Es ist nun eine KI entstanden, die handgeschriebene Ziffern unterscheiden kann.
Ich habe dieses Beispiel in einem YouTube-Video genau erklärt. (Hier geht es zum Video)
Gibt es ein bestimmtes Verfahren?
Es gibt viele verschiedene Möglichkeiten, aber am häufigsten wird Convolutional Neural Networks (NN) genutzt, also sogenannte Faltungsnetzwerke. Sie funktionieren über zufällige Filter, die sich im Trainingsprozess so entwickeln, dass sie auf das Beispiel passen. Vergleichbar ist das zum Beispiel mit einem Snapchat-Filter, den Sie über Selfies legen, der dann immer die Augen ausschneidet.
Gibt es weitere Alltagsbeispiele?
So gut wie jeder KI-Algorithmus, der mit Bilddaten arbeitet, benutzt Convolutional NN. Ob es die sogenannten „Deep Fakes“ sind oder Gesichtserkennung, im Prinzip nutzen alle die gleiche Technologie. Wenn das Handy die eigenen Bilder aus der Galerie automatisch nach Personen, Tieren oder Events kategorisiert, dann ist das ebenfalls auf Bildklassifikationsalgorithmen des maschinellen Lernens zurückzuführen. Auch in der bildgebenden Medizintechnik versucht man seit einigen Jahren, KI-Bildklassifikationsalgorithmen darauf zu trainieren, Krebszellen von gesundem Gewebe vollautomatisch zu unterscheiden. Das würde Radiologen enorm viel Arbeit ersparen und die Medizin hätte zukünftig mehr Zeit für den persönlichen Kontakt zum Patienten.
Was sind typische Anwendungsfälle im unternehmerischen oder industriellen Kontext?
Ein schönes Beispiel, ist die Unterscheidung von Gut- und Schlechtteilen bei Produktionsprozessen. Sie nehmen beispielsweise 1000 Bilder von Teilen, die gut waren und geben ihnen das Label „IO“ und nun fügen Sie weitere 1000 Bilder hinzu von Schlechtteilen mit dem Label „NIO“. Wenn die Merkmale eindeutig sind, lassen sich in weniger als 2 Tagen über Sortieren und Trainieren sehr genaue Aussagen darüber treffen, ob das Verfahren direkt produktiv nutzbar sein wird oder nicht.
Das Bild zeigt IO- und NIO-Teile eines Gussteils (Bremsscheibe) und wie man das Labeling visualisieren könnte.
Für den nächsten Blog gehen wir sogar noch einen Schritt weiter und klassifizieren nicht nur ganze Bilder, sondern einzelne Objekte in jedem Bild. Dabei könnte es sich um Produktionsfehler oder Objekte jeder Art handeln. Das gleiche Beispiel aus dem Bild oben ließe sich dann folgendermaßen übertragen:
Vergleichbar mit uns Menschen ist sich auch der Algorithmus nie 100% sicher mit seiner Einschätzung. Je nachdem, welche Sicherheit gewünscht ist, können die Ergebnisse gefiltert werden, sodass „Fehler“, die bei einer 50% Sicherheit gefunden werden, gegebenenfalls gar keine Fehler sind.
Wozu kann Bildklassifikation im Mittelstand sinnvoll sein?
Es lassen sich viele Qualitätssicherungsprozesse schnell und effizient automatisieren. Vor allem aber ist positiv herauszuheben, dass dazu keine teure Kamerahardware mehr nötig ist. Die Software (in diesem Fall KI), hat sich so gut weiterentwickelt, dass Sie Schwächen der Hardware problemlos kompensieren kann. Kamerasysteme für zehntausende von Euro sind damit obsolet, wenn es auch eine Webcam für weniger Geld tut.