En este artículo del blog, nos adentraremos en el tema de la visión por ordenador, analizando las aplicaciones del aprendizaje automático y el aprendizaje profundo.
La visión por ordenador (CV), también conocida como visión por computador, influye en nuestro mundo laboral y nuestra vida cotidiana sin que la mayoría de nosotros nos demos cuenta conscientemente. Esta tecnología del campo de la inteligencia artificial (IA) permite a las máquinas "ver" de forma similar a los humanos, reconociendo e interpretando datos visuales complejos.
Con La visión por ordenador puede reconocer y extraer automáticamente grandes volúmenes de datos no estructurados a partir de formatos de imagen y vídeo. La combinación con el aprendizaje automático, en particular con redes neuronales profundas (deep learning), es esencial en este caso. Esto permite a la visión por ordenador reconocer objetos, así como rostros y ahora incluso emociones, en cuestión de segundos.
He aquí un breve vídeo de la Nube sobre el tema en inglés:
Los campos de aplicación son diversos y van desde el reconocimiento y tratamiento de documentos hasta el reconocimiento de señales de tráfico y el análisis de imágenes de rayos X. El único requisito básico para que funcione la visión por ordenador: Las fuentes de datos, es decir, imágenes, grabaciones u otros documentos, deben haberse digitalizado previamente..
Con el avance de la digitalización Por ello, esta tecnología se utiliza cada vez en más industrias, desde la agricultura y la automoción hasta el sector de los seguros. Microsoft también utiliza esta tecnología como parte de su plataforma de computación en nube Azure. Se utiliza para dar soporte a una amplia gama de servicios.
CV también contribuye a la mejora del software de análisis inteligente de vídeo. Lo hace apoyando tareas complejas como la reconstrucción de escenas y el reconocimiento de objetos. Las empresas inteligentes han reconocido el enorme potencial de esta tecnología y la utilizan para mejorar tanto los procesos empresariales como el análisis de datos. Esto les ahorra tiempo y dinero.
Por último, también puede leer sobre un ejemplo en el que un jugador profesional y campeón del mundo fue derrotado gracias al uso de la visión por ordenador en su juego.
Definición - ¿Qué es la visión por ordenador?
La visión por ordenador es un campo especializado de la inteligencia artificial (IA). Se aplica a la simulación y, en algunos casos, incluso a la superación de la visión humana. En esencia, se ocupa de la adquisición, procesamiento, análisis e interpretación automatizados de datos visuales (imagen y vídeo).
Los algoritmos y técnicas desarrollados en visión por ordenador permiten a los sistemas informáticos comprender e interpretar la información visual de forma similar a los humanos. Esto abarca desde aplicaciones sencillas de análisis de imágenes y lectura de textos hasta complejas de comprensión y reconstrucción de escenas.
La visión por ordenador ha avanzado considerablemente en los últimos años y sigue siendo un área activa de investigación y desarrollo. Esto también puede verse en enfoques de IA de visión más completos, en los que el procesamiento puro de imágenes y el aprendizaje profundo se complementan con otros aspectos de la IA, como los análisis semánticos. Con la llegada de técnicas de IA más potentes, el potencial de aplicación del análisis visual de datos se ha ampliado considerablemente.
Asimismo, la nube ha garantizado un uso más intensivo. Estos avances hacen posible el uso de la visión por ordenador en muchas áreas de aplicación. Desde el reconocimiento de texto hasta el reconocimiento facial, pasando por la navegación autónoma de vehículos, se cubre un amplio abanico de tareas, ampliando constantemente el aprendizaje.
Ámbitos de aplicación de la visión por ordenador
La visión por ordenador se utiliza en diversas industrias y organizaciones. La automatización y el ahorro de tiempo y costes que conlleva son la mayor ventaja de la aplicación. Para una mejor comprensión, he aquí algunos ejemplos prácticos de aplicaciones en industrias seleccionadas:
Industria del automóvil
Los fabricantes de automóviles utilizan la visión por ordenador para los sistemas de asistencia al conductor, la conducción autónoma, la detección de señales de tráfico y peatones, y para vigilar el interior del vehículo.
Sanidad
En medicina, la visión por ordenador se utiliza para analizar imágenes médicas, mejorar los procedimientos de diagnóstico y detectar enfermedades. Algunos ejemplos son el análisis de imágenes de rayos X, tomografías computarizadas o resonancias magnéticas.
Venta al por menor
Las empresas del sector minorista utilizan la visión por ordenador para analizar el comportamiento de compra de los clientes, automatizar el seguimiento del inventario, ofrecer recomendaciones orientadas al cliente y mejorar los sistemas de prevención de robos.
Agricultura
La visión por ordenador se utiliza en agricultura para detectar enfermedades de las plantas, controlar el crecimiento de los cultivos, automatizar los procesos de recolección y optimizar el uso de fertilizantes o pesticidas.
Autoridades y bancos
En este caso, la visión por ordenador se utiliza en el procesamiento de documentos para leer automáticamente documentos como pasaportes, documentos de identidad o permisos de conducir y extraer la información pertinente. Esto acelera procesos administrativos como la verificación de identidad o la creación de documentos.
El uso de la visión por ordenador en las administraciones públicas y los bancos contribuye a mejorar la seguridad, la eficacia y la experiencia del cliente.
Estos ejemplos ilustran que la visión por ordenador se utiliza en diversos ámbitos para mejorar los procesos, aumentar la eficacia, incrementar la seguridad y desarrollar nuevas soluciones innovadoras.
La visión por ordenador como subcampo informático
Inteligencia Artificial (IA)
La inteligencia artificial (IA) se refiere a la capacidad de los ordenadores o sistemas de máquinas para realizar tareas que normalmente requerirían el pensamiento humano. Implica el desarrollo de algoritmos y técnicas que permiten a los ordenadores analizar datos, reconocer patrones, sacar conclusiones y resolver problemas.
Visión por ordenador (CV)
La visión por ordenador utiliza el aprendizaje automático y el aprendizaje profundo para analizar e interpretar datos visuales. Esto implica tareas como el reconocimiento de objetos, la clasificación de imágenes, el reconocimiento facial, la segmentación de imágenes, el seguimiento del movimiento y mucho más. Mediante el uso de modelos de aprendizaje profundo, especialmente redes neuronales convolucionales (CNN), los sistemas de visión por ordenador pueden gestionar tareas visuales complejas con gran precisión.
El uso del aprendizaje profundo en visión por ordenador ha dado lugar a avances significativos en el reconocimiento, análisis y procesamiento de imágenes. Al entrenar grandes redes neuronales con grandes cantidades de datos, los sistemas de visión por ordenador pueden reconocer y comprender patrones y características complejas en las imágenes.
La visión por computador es, por tanto, un campo de aplicación dentro de la inteligencia artificial que se basa en el aprendizaje automático y en el aprendizaje profundo en particular.
Aprendizaje automático (ML)
El aprendizaje automático (Machine Learning, ML) es un término genérico que engloba varios algoritmos y técnicas que permiten a un sistema informático aprender de la experiencia y reconocer patrones en los datos. Permite al ordenador realizar tareas o predicciones sin estar explícitamente programado para la aplicación.
Aprendizaje profundo (DL)
El aprendizaje profundo es un enfoque especial del aprendizaje automático basado en redes neuronales artificiales. Estas redes constan de varias capas interconectadas. De ahí procede el término "profundo", del inglés "deep". Los modelos de aprendizaje profundo son capaces de aprender automáticamente representaciones abstractas de los datos mediante la extracción de características jerárquicas en los datos. Muy a menudo, estas aplicaciones se utilizan en la llamada nube.
Diferencias: visión por ordenador y visión artificial
Visión por ordenador y visión artificial son términos que a menudo se utilizan como sinónimos. Principalmente porque se refieren a conceptos y tecnologías similares. Sin embargo, existen algunas diferencias sutiles entre ambos términos.
Visión por ordenador
La visión por ordenador es el campo científico y técnico que se ocupa del procesamiento, análisis e interpretación automatizados de la información visual. Su objetivo es conseguir que los ordenadores vean como los humanos.
Abarca una amplia gama de técnicas para capturar, comprender e interpretar datos visuales (imágenes o vídeos). Incluye el procesamiento de imágenes, el reconocimiento de patrones, el reconocimiento de objetos, la segmentación de imágenes, la reconstrucción 3D y mucho más. La visión por ordenador encuentra aplicación en diversos campos, como el reconocimiento de documentos, el reconocimiento facial, la obtención y análisis de imágenes médicas, los sistemas de vigilancia en seguridad con imagen y vídeo, etc.
Visión artificial
La tecnología de visión artificial ayuda a las plantas industriales a tomar decisiones sobre el terreno. La aplicación de la visión artificial se utiliza en inspección visual y detección de defectos, posicionamiento y reconocimiento, clasificación de objetos, etc.
La visión artificial es una de las técnicas fundadoras de la automatización industrial y ha contribuido a mejorar la calidad de los productos, acelerar la producción y optimizar la fabricación.
En resumen, la visión por ordenador es un concepto más amplio. Se ocupa de toda la gama de procesamiento e interpretación de la información visual, tanto en forma de imagen como de vídeo. La visión artificial es un subconjunto específico de la visión por ordenador. La visión artificial utiliza a menudo técnicas de la visión por ordenador para alcanzar sus objetivos.
Aparición de la tecnología de visión por ordenador
A continuación se exponen algunos hitos y avances en la historia de la visión por ordenador. El gran público conoció sus impresionantes capacidades en 2017. Porque en ese momento, la red neuronal AlphaGo contra el campeón del mundo en Juego de mesa Go en uso victorioso, demostrando así las capacidades de los sistemas de IA en percepción visual en la vida real.
- 1960s
- 1966 - La Conferencia de Verano sobre Visión desarrollada por Marvin Minsky se considera uno de los primeros hitos en la historia de la visión por ordenador. En ella se debatieron los fundamentos y los retos.
- 1970s
- 1970 - Lawrence Roberts desarrolla el primer sistema de tratamiento de imágenes capaz de reconocer formas geométricas.
- 1973 - Michael Fischler y Robert Elschlager desarrollan el Modelo pictórico de estructuras para detectar y seguir objetos en imágenes.
- 1980s
- 1980 - David Marr desarrolla una teoría de la percepción visual y presenta un modelo matemático para analizar imágenes.
- 1983 - El Transformación de características invariantes de escala (SIFT) de David Lowe permitió reconocer y describir con solidez las características de las imágenes.
- 1986 - El Procesos de flujo óptico de Berthold K. P. Horn y Brian G. Schunck permitieron seguir el movimiento de objetos en secuencias de imágenes.
- 1990s
- 1994 - El Modelo de Apariencia Activa (AAM) de Timothy Cootes permitió modelar y seguir los rasgos faciales.
- 1999 - El Procedimiento acelerado de características robustas (SURF) de Herbert Bay, que permitió extraer características de las imágenes de forma rápida y robusta.
- 2000s
- 2001 - El Procedimiento Viola Jones para el reconocimiento facial en tiempo real fue desarrollado por Paul Viola y Michael Jones.
- 2012 - AlexNet, una red neuronal profunda, ganó el concurso ImageNet y mejoró significativamente el rendimiento de la clasificación de imágenes.
- Desde 2010 hasta hoy
- 2014 - El Red Generativa Adversarial (GAN) de Ian Goodfellow permitió generar imágenes realistas.
- -2015 - El Red neuronal convolucional (CNN) ResNet consiguió una precisión muy alta en la clasificación de imágenes.
- 2017 - El Red neuronal AlphaGo derrotó al campeón mundial del juego de mesa Go y demostró las capacidades de los sistemas de IA en percepción visual.
- 2020 - El Transformador-Modelodesarrollado originalmente para el procesamiento del habla, se aplicó a la visión por ordenador y dio lugar a importantes avances en el procesamiento de imágenes y la interacción texto-imagen.
Estos hitos han marcado el desarrollo y el progreso de la visión por ordenador y han dado lugar a una amplia gama de aplicaciones en ámbitos como la conducción autónoma, la medicina, la seguridad, el entretenimiento (cine, vídeo) y el procesamiento de documentos.
Perspectivas y conclusiones
La visión por ordenador sigue siendo un campo de investigación activo con un gran potencial de desarrollo e innovación de cara al futuro. El aprendizaje está en continuo desarrollo debido a la gran cantidad de datos que se leen a diario.
Excurso: La visión por ordenador y el síndrome de visión por ordenador
La visión por ordenador no tiene nada que ver con la Síndrome de visión por ordenador (CVS). En este caso, el término se utiliza en un contexto completamente diferente: en concreto, cuando se trata de la fatiga visual causada por mirar la pantalla durante demasiado tiempo.
PREGUNTAS FRECUENTES
¿Qué es la visión por ordenador?
La visión por ordenador es un campo de la informática que se ocupa del procesamiento, análisis e interpretación automatizados de datos visuales para que los ordenadores puedan ver de forma similar a los humanos.
¿Dónde se utiliza la visión por ordenador?
Automatización industrial, procesamiento de documentos, robótica, verificación automática de documentos, realidad aumentada (RA), reconocimiento facial, imágenes médicas, vigilancia y seguridad, gestión de documentos, etc. Por cierto, Microsoft utiliza CV en su plataforma en la nube Azure.