In diesem Blogartikel werden wir das Thema Computer Vision etwas genauer betrachten und sehen uns dabei die Anwendungen von Machine Learning und Deep Learning an.
Computer Vision (CV), auch Computervision oder Computer-Vision geschrieben, beeinflusst unsere Arbeitswelt und unseren Alltag, ohne dass die meisten von uns es bewusst wahrnehmen. Diese transformative Technologie im Feld der Künstlichen Intelligenz (KI) ermöglicht es Maschinen, ähnlich wie Menschen zu ’sehen‘ und dabei komplexe visuelle Daten zu erkennen und zu interpretieren.
In der heutigen, von Daten getriebenen Welt spielt die Anwendung von Computer Vision eine immer wichtigere Rolle. Nämlich bei der Extraktion wertvoller Informationen aus riesigen Mengen unstrukturierter Daten aus den Formaten Bild und Video. Wesentlich ist dabei die Kombination mit Machine Learning, insbesondere mit tiefen neuronalen Netzwerken (Deep Learning). Denn dadurch kann Computer Vision sowohl Objekte als auch Gesichter und mittlerweile sogar Emotionen in Echtzeit erkennen.
Hier ein kurzes Video aus der Cloud zum Thema in englischer Sprache:
Die Anwendungsbereiche sind vielfältig und reichen von der Erkennung und Verarbeitung von Dokumenten über die Erkennung von Verkehrszeichen bis hin zur Analyse der Bilder von Röntgenaufnahmen.
Deshalb findet die Technologie in immer mehr Branchen Einsatz, von der Landwirtschaft über die Automobilindustrie bis hin zum Versicherungssektor. Microsoft verwendet diese Technologie übrigens im Zuge seiner Cloud-Computing-Plattform Azure. Dabei wird sie eingesetzt, um eine Vielzahl von Dienstleistungen zu unterstützen.
CV trägt auch zur Verbesserung intelligenter Videoanalyse-Software bei. Und zwar, indem sie komplexe Aufgaben wie Szenen-Rekonstruktion und Echtzeit-Objekterkennung unterstützt. Smarte Unternehmen haben das enorme Potenzial dieser Technologie erkannt und verbessern mit ihrer Hilfe sowohl Geschäftsprozesse als auch die Datenanalyse. Denn so sparen sie Zeit und Geld.
Schließlich könnt ihr auch von einem Beispiel lesen, bei dem ein Pro-Gamer und Weltmeister durch den Einsatz von Computer Vision in seinem Spiel geschlagen wurde.
Sie lesen den Text in seiner Originalfassung.
Was ist Computer Vision?
Computer Vision ist ein spezialisierter Bereich der Künstlichen Intelligenz (KI). Sie findet ihre Anwendung darin, menschliches Sehvermögen zu simulieren und in einigen Fällen sogar zu übertreffen. Im Kern befasst sie sich mit der automatisierten Erfassung, Verarbeitung, Analyse und Interpretation von visuellen Daten (Bild und Video).
Die entwickelten Algorithmen und Techniken in Computer Vision ermöglichen es Computersystemen, visuelle Informationen auf ähnliche Weise zu verstehen und zu interpretieren, wie es Menschen tun. Das reicht von der einfachen Anwendung zur Bild-Analyse und dem Lesen von Texten bis hin zu komplexem Szenen-Verständnis und Szenen-Rekonstruktion.
In den letzten Jahren hat die Computer Vision erhebliche Fortschritte gemacht und bleibt ein aktives Gebiet der Forschung und Entwicklung. Mit dem Aufkommen von Deep Learning und erweiterten KI-Techniken hat sich das Potenzial für die Nutzung und Anwendung der visuellen Analyse von Daten erheblich erweitert.
Ebenso hat die Cloud für eine intensivere Nutzung gesorgt. Diese Fortschritte ermöglichen es, Computer Vision in vielen Anwendungsbereichen zum Einsatz kommen zu lassen. Von der Erkennung von Text über die Erkennung von Gesichtern bis hin zur autonomen Fahrzeugnavigation wird ein breites Aufgabenspektrum abgedeckt und so das Learning ständig erweitert.
Wie und wo wird Computer Vision eingesetzt?
Computer Vision wird von verschiedenen Industriezweigen und Organisationen genutzt. Dabei ist die Automatisation und die damit einhergehende Zeit- und Kostenersparnis der größte Vorteil in der Anwendung.
Folgend zum besseren Verständnis einige Praxisbeispiele für die Anwendung in ausgewählten Branchen:
Automobilindustrie
Automobilhersteller verwenden Computer Vision für Fahrerassistenzsysteme, autonomes Fahren, die Erkennung von Verkehrszeichen- und Fußgängererkennung sowie zur Überwachung des Innenraums des Fahrzeugs.
Gesundheitswesen
In der Medizin wird Computer Vision eingesetzt, um medizinische Bilder zu analysieren, diagnostische Verfahren zu verbessern und Krankheiten zu erkennen. Beispiele sind die Analyse von Röntgenbildern, CT-Scans oder MRT-Bildern.
Einzelhandel
Unternehmen im Einzelhandel setzen Computer Vision ein, um das Einkaufsverhalten der Kunden zu analysieren, Inventarverfolgung zu automatisieren, kundenorientierte Empfehlungen zu geben und Diebstahlpräventionssysteme zu verbessern.
Landwirtschaft
Computer Vision wird in der Landwirtschaft eingesetzt, um Pflanzenkrankheiten zu erkennen, das Wachstum von Pflanzen zu überwachen, Ernteprozesse zu automatisieren und den Einsatz von Düngemitteln oder Pestiziden zu optimieren.
Behörden und Banken
Hier wird Computer Vision zur Dokumentenverarbeitung verwendet, um Dokumente wie Pässe, Ausweise oder Führerscheine automatisch zu lesen und relevante Informationen zu extrahieren. Dies beschleunigt Verwaltungsprozesse wie die Identitätsüberprüfung oder die Dokumentenerstellung.
Die Anwendung von Computer Vision in Behörden und Banken trägt zur Verbesserung der Sicherheit, Effizienz und Kundenerfahrung bei.
Diese Beispiele verdeutlichen, dass Computer Vision in verschiedenen Bereichen eingesetzt wird, um Prozesse zu verbessern, Effizienz zu steigern, Sicherheit zu erhöhen und neue innovative Lösungen zu entwickeln.
Computer Vision als Teilgebiet der KI
Künstliche Intelligenz (KI)
Künstliche Intelligenz (KI) bezieht sich auf die Fähigkeit von Computern oder maschinellen Systemen, Aufgaben auszuführen, die normalerweise menschliches Denken erfordern würden. Dabei geht es um die Entwicklung von Algorithmen und Techniken, die es Computern ermöglichen, Daten zu analysieren, Muster zu erkennen, Schlussfolgerungen zu ziehen und Probleme zu lösen.
Computer Vision (CV)
Computer Vision verwendet Machine Learning und Deep Learning, um visuelle Daten zu analysieren und zu interpretieren. Dabei geht es um Aufgaben wie Objekterkennung, Bildklassifizierung, Gesichtserkennung, Bildsegmentierung, Bewegungsverfolgung und vieles mehr. Durch den Einsatz von Deep-Learning-Modellen, insbesondere von Convolutional-Neural-Networks (CNNs), können Computer-Vision-Systeme komplexe visuelle Aufgaben mit hoher Genauigkeit bewältigen.
Die Verwendung von Deep-Learning in Computer-Vision hat zu erheblichen Fortschritten in der Bilderkennung, -analyse und -verarbeitung geführt. Durch das Training großer neuronaler Netzwerke mit großen Datenmengen können Computer-Vision-Systeme komplexe Muster und Merkmale in Bildern erkennen und verstehen.
“Computer Vision ist somit ein Anwendungsgebiet innerhalb der Künstlichen Intelligenz, das auf Machine Learning und insbesondere Deep Learning basiert.”
Machine Learning(ML)
Maschinelles Lernen (ML) ist ein Oberbegriff für verschiedene Algorithmen und Techniken, mit denen ein Computersystem aus Erfahrungen lernen und Muster in Daten erkennen kann. Es ermöglicht dem Computer, Aufgaben zu erledigen oder Vorhersagen zu treffen, ohne explizit auf die Anwendung programmiert zu sein.
Deep Learning (DL)
Deep Learning ist ein spezieller Ansatz des maschinellen Lernens, der auf künstlichen neuronalen Netzwerken basiert. Diese Netzwerke bestehen aus mehreren Schichten, die miteinander verbunden sind. Daher stammt auch der Begriff „tief“, vom englischen Wort “deep”. Deep-Learning-Modelle sind in der Lage, automatisch abstrakte Darstellungen von Daten zu erlernen, indem sie hierarchische Merkmale in den Daten extrahieren. Sehr oft kommen diese Anwendungen in der sogenannten Cloud zum Einsatz.
Computer Vision vs. Maschinelles Sehen ‒ die Unterschiede
Computer Vision und Maschinelles Sehen sind Begriffe, die oft synonym verwendet werden. Vor allem deshalb, weil sie sich auf ähnliche Konzepte und Technologien beziehen. Es gibt jedoch einige subtile Unterschiede zwischen den beiden Begriffen.
Computer Vision
Computer Vision bezieht sich auf den wissenschaftlichen und technischen Bereich, der sich mit der automatisierten Verarbeitung, Analyse und Interpretation von visuellen Informationen beschäftigt. Das Ziel von Computer Vision besteht darin, Computern das Sehvermögen nach menschlichem Vorbild zu ermöglichen.
Es umfasst eine breite Palette von Techniken, um visuelle Daten (Bilder oder Videos) zu erfassen, zu verstehen und zu interpretieren. Dazu gehören Bildverarbeitung, Mustererkennung, Objekterkennung, Bildsegmentierung, 3D-Rekonstruktion und vieles mehr. Computer Vision findet Anwendung in verschiedenen Bereichen wie Dokumentenerkennung, Erkennung von Gesichtern, medizinische Bildgebung und Analyse, Überwachungssysteme im Bereich Sicherheit mit Bild und Video usw.
Maschinelles Sehen (Machine Vision)
Die Technik des maschinellen Sehens hilft Industrieanlagen im Einsatz bei der Entscheidungstreffung. Die Anwendung des maschinellen Sehens findet ihren Einsatz bei Sichtprüfung und Fehlererkennung, Positionierung und Erkennung, Objekt-Sortierung usw.
Maschinelles Sehen ist eine der Gründungstechniken der Industrieautomatisierung und hat geholfen, die Produktqualität zu verbessern, die Produktion zu beschleunigen und die Fertigung zu optimieren.
Zusammenfassend kann man sagen, dass Computer Vision ein umfassenderes Konzept ist. Es befasst sich mit der gesamten Bandbreite der Verarbeitung und Interpretation visueller Informationen, sowohl in Form von Bild als auch Video. Maschinelles Sehen ist dabei ein spezifischer Teilbereich der Computer Vision. Maschinelles Sehen verwendet oft Techniken aus der Computer Vision, um seine Ziele zu erreichen.
Definition Computer Vision (zusammengefasst)
“Insgesamt kann man Computer Vision als die künstliche Fähigkeit beschreiben, visuelle Daten (Bild, Video) aufzunehmen und dabei zu lesen, verstehen und darauf zu reagieren. Und zwar so ähnlich, wie ein menschliches Auge und Gehirn es im natürlichen Zusammenspiel vollziehen.”
Entstehungsgeschichte der Computer Vision
Folgend einige Meilensteine und Entwicklungen in der Geschichte der Computer Vision. Die breite Öffentlichkeit wurde auf die eindrucksvollen Fähigkeiten im Jahr 2017 aufmerksam. Denn damals war das neuronale Netzwerk AlphaGo gegen den Weltmeister im Brettspiel Go im siegreichen Einsatz und stellte dadurch die Fähigkeiten von KI-Systemen in der visuellen Wahrnehmung im realen Leben unter Beweis.
- 1960er Jahre
- – 1966: Die von Marvin Minsky entwickelte Summer-Vision-Konferenz gilt als einer der frühesten Meilensteine in der Geschichte der Computer Vision. Dort wurden Grundlagen und Herausforderungen diskutiert.
- 1970er Jahre
- – 1970: Das erste System zur Bildverarbeitung, das in der Lage war, geometrische Formen zu erkennen, wurde von Lawrence Roberts entwickelt.
- – 1973: Michael Fischler und Robert Elschlager entwickelten das Pictorial-Structures-Modell zur Erkennung und Verfolgung von Objekten in Bildern.
- 1980er Jahre
- – 1980: David Marr entwickelte eine Theorie der visuellen Wahrnehmung und präsentierte ein mathematisches Modell zur Bildanalyse.
- 1983: Das Scale-Invariant Feature Transform (SIFT)-Verfahren von David Lowe ermöglichte die robuste Erkennung und Beschreibung von Merkmalen in Bildern.
- – 1986: Das Optische Flussverfahren von Berthold K. P. Horn und Brian G. Schunck ermöglichte die Bewegungsverfolgung von Objekten in Bildsequenzen.
- 1990er Jahre
- 1994: Das Active Appearance Model (AAM) von Timothy Cootes ermöglichte die Modellierung und Verfolgung von Gesichtsmerkmalen in Echtzeit.
- 1999: Das Speeded Up Robust Features Verfahren (SURF) von Herbert Bay wurde entwickelt und ermöglichte schnelle und robuste Merkmalsextraktion in Bildern.
- 2000er Jahre
- 2001: Das Viola-Jones-Verfahren zur Echtzeit-Gesichtserkennung wurde von Paul Viola und Michael Jones entwickelt.
- 2012: AlexNet, ein tiefes neuronales Netzwerk, gewann den ImageNet-Wettbewerb und verbesserte die Leistung der Bildklassifizierung erheblich.
- 2010er Jahre bis heute
- 2014: Das Generative Adversarial Network (GAN) von Ian Goodfellow ermöglichte die Generierung von realistischen Bildern.
- – 2015: Das Convolutional Neural Network (CNN) ResNet erreichte eine sehr hohe Genauigkeit bei der Bildklassifizierung.
- 2017: Das neuronale Netzwerk AlphaGo besiegte den Weltmeister im Brettspiel Go und zeigte die Fähigkeiten von KI-Systemen in der visuellen Wahrnehmung.
- 2020: Das Transformer-Modell, ursprünglich für die Sprachverarbeitung entwickelt, wurde auf die Computer Vision angewendet und führte zu großen Fortschritten bei der Bildverarbeitung und Text-Bild-Interaktion.
Diese Meilensteine haben die Entwicklung und Fortschritte der Computer Vision geprägt und haben zu einer Vielzahl von Anwendungen in Bereichen wie Autonomes Fahren, Medizin, Sicherheit, Unterhaltung (Film, Video) und Dokumentenverarbeitung geführt.
Meilensteine von CV im Zeitüberblick
- Pictorial Structures Modell
- Scale-Invariant Feature Transform
- Optischer Fluss
- Active Appearance Model
- Speeded Up Robust Features Verfahren
- Viola Jones Verfahren
- Generative Adversarial Network
- Convolutional Neural Network
- Transformer Modell
Zukunftsausblick
Die Computer Vision bleibt ein aktives Forschungsgebiet mit hohem Entwicklungs- und Innovationspotenzial für die Zukunft. Das Learning entwickelt sich dabei durch die hohe Menge an täglichen ausgelesenen Daten kontinuierlich weiter.
Computer Vision vs. Computer-Vision-Syndrom
Computer Vision hat nichts mit dem Computer-Vision-Syndrom (CVS) zu tun. Hier wird der Begriff in einem vollkommen anderen Zusammenhang verwendet: nämlich, wenn es um die Überanstrengung der Augen bei zu langer Betrachtung des Bildschirms geht. Wer selbst viel oder zu viel Zeit vor dem Bildschirm mit Lesen und Lernen verbringt, kann sich beispielsweise hier zehn hilfreiche Schritte zur Linderung des CVS ansehen.
FAQ
Was ist Computer Vision?
Computer Vision ist ein Bereich der Informatik, der sich mit der automatisierten Verarbeitung, Analyse und Interpretation von visuellen Daten befasst, um Computern das Sehvermögen nach menschlichem Vorbild zu ermöglichen.
Wo wird Computer Vision eingesetzt?
Industrielle Automatisation, Dokumentenverarbeitung, Robotik, automatische Dokumentenprüfung, Augmented Reality (AR), Gesichtserkennung, medizinische Bildgebung, Überwachung und Sicherheit, Dokumentenverwaltung, etc.
Microsoft setzt CV übrigens in seiner Cloud-Plattform Azure ein.