Dans cet article de blog, nous allons nous intéresser d'un peu plus près à la vision par ordinateur et voir les applications du Machine Learning et du Deep Learning.
La vision par ordinateur (CV), également appelée vision par ordinateur ou vision informatique, influence notre monde du travail et notre quotidien sans que la plupart d'entre nous en soient conscients. Cette technologie transformatrice dans le domaine de l'intelligence artificielle (IA) permet aux machines de 'voir' comme les humains, tout en reconnaissant et en interprétant des données visuelles complexes.
Dans le monde d'aujourd'hui, dominé par les données, l'application de la vision par ordinateur joue un rôle de plus en plus important. Il s'agit d'extraire des informations précieuses d'énormes quantités de données non structurées dans les formats image et vidéo. La combinaison avec le Machine Learning, en particulier avec les réseaux neuronaux profonds (Deep Learning), est ici essentielle. En effet, la vision par ordinateur peut ainsi reconnaître en temps réel aussi bien les objets que les visages et même les émotions.
Voici une courte vidéo du cloud sur le sujet, en anglais:
Les domaines d'application sont nombreux et vont de la reconnaissance et du traitement de documents à l'analyse d'images de radiographies, en passant par la reconnaissance de panneaux de signalisation.
C'est pourquoi cette technologie est utilisée dans un nombre croissant de secteurs, de l'agriculture à l'industrie automobile en passant par le secteur des assurances. Microsoft utilise d'ailleurs cette technologie dans le cadre de sa plateforme de cloud computing Azure. Elle est utilisée pour soutenir une multitude de services.
CV contribue également à l'amélioration des logiciels d'analyse vidéo intelligents. Et ce, en prenant en charge des tâches complexes telles que la reconstruction de scènes et la reconnaissance d'objets en temps réel. Les entreprises intelligentes ont reconnu l'énorme potentiel de cette technologie et l'utilisent pour améliorer à la fois les processus commerciaux et l'analyse des données. Elles économisent ainsi du temps et de l'argent.
Enfin, vous pouvez également lire l'exemple d'un pro-gamer et champion du monde qui a été battu par l'utilisation de la vision par ordinateur dans son jeu.
Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.
Qu'est-ce que la vision par ordinateur ?
La vision par ordinateur est un domaine spécialisé de l'intelligence artificielle (IA). Elle trouve son application dans la simulation de la vision humaine et, dans certains cas, dans son dépassement. Elle s'occupe essentiellement de la saisie, du traitement, de l'analyse et de l'interprétation automatisés de données visuelles (image et vidéo).
Les algorithmes et techniques développés en vision par ordinateur permettent aux systèmes informatiques de comprendre et d'interpréter les informations visuelles de la même manière que les humains. Cela va de la simple application d'analyse d'images et de lecture de textes à la compréhension et à la reconstruction complexes de scènes.
Ces dernières années, la vision par ordinateur a fait des progrès considérables et reste un domaine actif de recherche et de développement. Avec l'avènement du deep learning et des techniques avancées d'IA, le potentiel d'utilisation et d'application de l'analyse visuelle des données s'est considérablement élargi.
De même, le cloud a permis une utilisation plus intensive. Ces progrès permettent d'utiliser la vision par ordinateur dans de nombreux domaines d'application. De la reconnaissance de texte à la reconnaissance de visages en passant par la navigation autonome de véhicules, un large éventail de tâches est couvert, ce qui permet d'élargir constamment l'apprentissage.
Comment et où la vision par ordinateur est-elle utilisée ?
La vision par ordinateur est utilisée par différents secteurs industriels et organisations. Dans ce contexte, l'automatisation et les économies de temps et de coûts qui en découlent constituent le principal avantage de l'application.
Pour une meilleure compréhension, voici quelques exemples pratiques d'application dans des secteurs sélectionnés :
Industrie automobile
Les constructeurs automobiles utilisent la vision par ordinateur pour les systèmes d'aide à la conduite, la conduite autonome, la reconnaissance des panneaux de signalisation et des piétons, ainsi que pour la surveillance de l'habitacle du véhicule.
Santé publique
En médecine, la vision par ordinateur est utilisée pour analyser les images médicales, améliorer les procédures de diagnostic et détecter les maladies. L'analyse des radiographies, des scanners ou des images IRM en sont des exemples.
Commerce de détail
Les entreprises du secteur de la vente au détail utilisent la vision par ordinateur pour analyser le comportement d'achat des clients, automatiser le suivi des stocks, fournir des recommandations axées sur le client et améliorer les systèmes de prévention des vols.
Agriculture
La vision par ordinateur est utilisée dans l'agriculture pour détecter les maladies des plantes, surveiller la croissance des plantes, automatiser les processus de récolte et optimiser l'utilisation d'engrais ou de pesticides.
Autorités et banques
Ici, la vision par ordinateur est utilisée pour le traitement des documents afin de lire automatiquement les documents tels que les passeports, les cartes d'identité ou les permis de conduire et d'en extraire les informations pertinentes. Cela accélère les processus administratifs tels que la vérification de l'identité ou la Création de documents.
L'application de la vision par ordinateur dans les administrations et Banques contribue à améliorer la sécurité, l'efficacité et l'expérience des clients.
Ces exemples montrent bien que la vision par ordinateur est utilisée dans différents domaines pour améliorer les processus, augmenter l'efficacité, renforcer la sécurité et développer de nouvelles solutions innovantes.
La vision par ordinateur, un domaine de l'IA
Intelligence artificielle (IA)
L'intelligence artificielle (IA) fait référence à la capacité des ordinateurs ou des systèmes de machines à effectuer des tâches qui nécessiteraient normalement une réflexion humaine. Il s'agit du développement d'algorithmes et de techniques qui permettent aux ordinateurs d'analyser des données, de reconnaître des modèles, de tirer des conclusions et de résoudre des problèmes.
Vision par ordinateur (CV)
La vision par ordinateur utilise le Machine Learning et le Deep Learning pour analyser et interpréter les données visuelles. Il s'agit de tâches telles que la reconnaissance d'objets, la classification d'images, la reconnaissance de visages, la segmentation d'images, le suivi de mouvements et bien plus encore. L'utilisation de modèles d'apprentissage profond, notamment les réseaux neuronaux convolutifs (CNN), permet aux systèmes de vision par ordinateur de réaliser des tâches visuelles complexes avec une grande précision.
L'utilisation de l'apprentissage profond dans la vision par ordinateur a permis de réaliser des progrès considérables dans la reconnaissance, l'analyse et le traitement des images. En entraînant de grands réseaux neuronaux avec de grandes quantités de données, les systèmes de vision par ordinateur peuvent reconnaître et comprendre des motifs et des caractéristiques complexes dans les images.
"La vision par ordinateur est donc un domaine d'application au sein de l'intelligence artificielle, basé sur l'apprentissage automatique et en particulier sur l'apprentissage profond".
Apprentissage automatique (ML)
L'apprentissage automatique (ML) est un terme générique désignant différents algorithmes et techniques permettant à un système informatique d'apprendre de ses expériences et de reconnaître des modèles dans les données. Il permet à l'ordinateur d'effectuer des tâches ou de faire des prédictions sans être explicitement programmé pour l'application.
Apprentissage profond (DL)
Le deep learning est une approche spécifique de l'apprentissage automatique basée sur des réseaux neuronaux artificiels. Ces réseaux sont composés de plusieurs couches reliées entre elles. C'est de là que vient le terme "profond", du mot anglais "deep". Les modèles d'apprentissage profond sont capables d'apprendre automatiquement des représentations abstraites de données en extrayant des caractéristiques hiérarchiques dans les données. Très souvent, ces applications sont utilisées dans ce que l'on appelle le cloud.
Vision par ordinateur vs. vision artificielle - les différences
La vision par ordinateur et la vision automatique sont des termes qui sont souvent utilisés comme synonymes. Principalement parce qu'ils font référence à des concepts et des technologies similaires. Il existe toutefois quelques différences subtiles entre les deux termes.
Vision par ordinateur
La vision par ordinateur fait référence au domaine scientifique et technique qui s'occupe du traitement, de l'analyse et de l'interprétation automatisés des informations visuelles. L'objectif de la vision par ordinateur est de permettre aux ordinateurs de voir comme les humains.
Il englobe un large éventail de techniques permettant de capturer, de comprendre et d'interpréter des données visuelles (images ou vidéos). Cela inclut le traitement d'images, la reconnaissance de formes, la reconnaissance d'objets, la segmentation d'images, la reconstruction 3D et bien plus encore. La vision par ordinateur trouve des applications dans différents domaines tels que la reconnaissance de documents, la reconnaissance de visages, l'imagerie et l'analyse médicales, les systèmes de surveillance dans le domaine de la sécurité par l'image et la vidéo, etc.
Vision artificielle (Machine Vision)
La technique de la vision artificielle aide les installations industrielles en service à prendre des décisions. L'application de la vision artificielle est utilisée pour l'inspection visuelle et la détection des défauts, le positionnement et la reconnaissance, le tri des objets, etc.
La vision artificielle est l'une des techniques fondatrices de l'automatisation industrielle et a contribué à améliorer la qualité des produits, à accélérer la production et à optimiser la fabrication.
En résumé, la vision par ordinateur est un concept plus large. Il traite de l'ensemble du traitement et de l'interprétation des informations visuelles, tant sous forme d'images que de vidéos. La vision artificielle est un domaine spécifique de la vision par ordinateur. La vision artificielle utilise souvent des techniques issues de la vision par ordinateur pour atteindre ses objectifs.
Définition de la vision par ordinateur (en résumé)
"Globalement, la vision par ordinateur peut être décrite comme la capacité artificielle d'enregistrer des données visuelles (image, vidéo) tout en les lisant, en les comprenant et en y réagissant. Et ce, de manière similaire à ce qu'un œil et un cerveau humains réalisent en interaction naturelle".
Historique de la vision par ordinateur
Voici quelques jalons et développements dans l'histoire de la vision par ordinateur. Le grand public a pris conscience de ces capacités impressionnantes en 2017. En effet, à cette époque, le réseau neuronal AlphaGo contre le champion du monde de Jeu de société Go a été utilisé avec succès, démontrant ainsi les capacités des systèmes d'IA en matière de perception visuelle dans la vie réelle.
- Années 1960
- - 1966 : la conférence Summer Vision développée par Marvin Minsky est considérée comme l'un des premiers jalons de l'histoire de la vision par ordinateur. Les bases et les défis y ont été discutés.
- Années 1970
- - 1970 : Le premier système de traitement d'images capable de reconnaître des formes géométriques a été développé par Lawrence Roberts.
- - 1973 : Michael Fischler et Robert Elschlager ont développé le Modèle de structures picturales pour la détection et le suivi d'objets dans les images.
- Les années 1980
- - 1980 : David Marr a développé une théorie de la perception visuelle et a présenté un modèle mathématique pour l'analyse des images.
- 1983 : Le Transformation de fonctions à échelle variable (SIFT) de David Lowe a permis une reconnaissance et une description robustes des caractéristiques dans les images.
- - 1986 : Le Procédés de flux optique de Berthold K. P. Horn et Brian G. Schunck a permis de suivre le mouvement d'objets dans des séquences d'images.
- Les années 1990
- 1994 : Le Modèle d'apparence active (AAM) de Timothy Cootes a permis de modéliser et de suivre les caractéristiques faciales en temps réel.
- 1999 : Le Procédure Speeded Up Robust Features (SURF) de Herbert Bay a été développé et a permis une extraction rapide et robuste de caractéristiques dans les images.
- Années 2000
- 2001 : Le Procédure Viola-Jones pour la reconnaissance faciale en temps réel a été développé par Paul Viola et Michael Jones.
- 2012 : AlexNet, un réseau neuronal profond, a remporté le concours ImageNet et a considérablement amélioré les performances de la classification des images.
- Des années 2010 à aujourd'hui
- 2014 : Le Réseau d'adversaires génératifs (GAN) de Ian Goodfellow a permis de générer des images réalistes.
- - 2015 : Le Réseau neuronal convolutif (CNN) ResNet a atteint une très grande précision dans la classification des images.
- 2017 : Le réseau neuronal AlphaGo a vaincu le champion du monde du jeu de société Go et a démontré les capacités des systèmes d'IA en matière de perception visuelle.
- 2020 : Le Transformateur-modèle, initialement développé pour le traitement de la parole, a été appliqué à la vision par ordinateur et a permis de grandes avancées dans le traitement des images et l'interaction texte-image.
Ces étapes ont marqué le développement et les progrès de la vision par ordinateur et ont donné lieu à une multitude d'applications dans des domaines tels que la conduite autonome, la médecine, la sécurité, le divertissement (film, vidéo) et le traitement de documents.
Les grandes étapes de CV en un clin d'œil
- Modèle de structures picturales
- Transformation de fonctions à échelle variable
- Flux optique
- Modèle d'apparence active
- Procédure Speeded Up Robust Features
- Procédure Viola Jones
- Réseau d'adversaires génératifs
- Réseau neuronal convolutif
- Modèle de transformateur
Perspectives d'avenir
La vision par ordinateur reste un domaine de recherche actif avec un fort potentiel de développement et d'innovation pour l'avenir. Dans ce contexte, l'apprentissage évolue continuellement en raison de la grande quantité de données lues chaque jour.
Vision par ordinateur vs. syndrome de vision par ordinateur
La vision par ordinateur n'a rien à voir Syndrome de vision par ordinateur (CVS). Ici, le terme est utilisé dans un contexte totalement différent : à savoir, lorsqu'il s'agit de la fatigue oculaire due à une trop longue exposition à l'écran. Les personnes qui passent elles-mêmes beaucoup ou trop de temps devant l'écran à lire et à étudier peuvent par exemple ici voir dix étapes utiles pour soulager le CVS.
FAQ
Qu'est-ce que la vision par ordinateur ?
La vision par ordinateur est un domaine de l'informatique qui s'occupe du traitement, de l'analyse et de l'interprétation automatisés des données visuelles afin de permettre aux ordinateurs de voir comme les humains.
Où la vision par ordinateur est-elle utilisée ?
Automatisation industrielle, Traitement des documents, robotique, automatique Contrôle des documentsLa réalité augmentée (AR), la reconnaissance faciale, l'imagerie médicale, la surveillance et la sécurité, Gestion des documents, etc.
Microsoft utilise d'ailleurs CV dans sa plateforme cloud Azure.