En este artículo del blog, nos adentraremos en el tema de la visión por ordenador, analizando las aplicaciones del aprendizaje automático y el aprendizaje profundo.
La visión por ordenador (CV), también deletreada computer vision, está influyendo en nuestro mundo laboral y en nuestra vida cotidiana sin que la mayoría de nosotros seamos conscientes de ello. Esta tecnología transformadora del campo de la Inteligencia Artificial (IA) permite a las máquinas "ver" de forma similar a los humanos, reconociendo e interpretando datos visuales complejos.
En el mundo actual, impulsado por los datos, la aplicación de la visión por ordenador desempeña un papel cada vez más importante. A saber, en la extracción de información valiosa a partir de ingentes cantidades de datos no estructurados procedentes de formatos de imagen y vídeo. La combinación con el aprendizaje automático, especialmente con las redes neuronales profundas (deep learning), es aquí esencial. Esto permite a la visión por ordenador reconocer objetos, así como rostros y ahora incluso emociones en tiempo real.
He aquí un breve vídeo de la Nube sobre el tema en inglés:
Los campos de aplicación son diversos y van desde el reconocimiento y tratamiento de documentos hasta el reconocimiento de señales de tráfico y el análisis de imágenes de rayos X.
Por eso, esta tecnología se utiliza cada vez en más industrias, desde la agricultura hasta la automoción, pasando por el sector de los seguros. Microsoft, por cierto, utiliza esta tecnología en el curso de su plataforma de computación en nube Azure. Se utiliza para dar soporte a una amplia gama de servicios.
CV también ayuda a mejorar el software de análisis de vídeo inteligente. Y lo hace apoyando tareas complejas como la reconstrucción de escenas y el reconocimiento de objetos en tiempo real. Las empresas inteligentes han reconocido el enorme potencial de esta tecnología y la utilizan para mejorar tanto los procesos empresariales como el análisis de datos. Porque así ahorran tiempo y dinero.
Por último, también puede leer sobre un ejemplo en el que un jugador profesional y campeón del mundo fue derrotado gracias al uso de la visión por ordenador en su juego.
Este artículo ha sido traducido al alemán y se ha traducido automáticamente a otros idiomas. Nos complacerá recibir sus comentarios al final del artículo.
¿Qué es la visión por ordenador?
La visión por ordenador es un campo especializado de la inteligencia artificial (IA). Se aplica a la simulación y, en algunos casos, incluso a la superación de la visión humana. En esencia, se ocupa de la adquisición, procesamiento, análisis e interpretación automatizados de datos visuales (imagen y vídeo).
Los algoritmos y técnicas desarrollados en visión por ordenador permiten a los sistemas informáticos comprender e interpretar la información visual de forma similar a los humanos. Esto abarca desde aplicaciones sencillas de análisis de imágenes y lectura de textos hasta complejas de comprensión y reconstrucción de escenas.
En los últimos años, la visión por ordenador ha avanzado significativamente y sigue siendo un área activa de investigación y desarrollo. Con la llegada del aprendizaje profundo y las técnicas avanzadas de IA, el potencial de uso y aplicación del análisis visual de datos se ha ampliado considerablemente.
Asimismo, la nube ha garantizado un uso más intensivo. Estos avances hacen posible el uso de la visión por ordenador en muchas áreas de aplicación. Desde el reconocimiento de texto hasta el reconocimiento facial, pasando por la navegación autónoma de vehículos, se cubre un amplio abanico de tareas, ampliando constantemente el aprendizaje.
¿Cómo y dónde se utiliza la visión por ordenador?
La visión por ordenador se utiliza en diversas industrias y organizaciones. La automatización y el consiguiente ahorro de tiempo y costes son las mayores ventajas de la aplicación.
A continuación se presentan algunos ejemplos prácticos de aplicación en sectores seleccionados para una mejor comprensión:
Industria del automóvil
Los fabricantes de automóviles utilizan la visión por ordenador para los sistemas de asistencia al conductor, la conducción autónoma, la detección de señales de tráfico y peatones, y para vigilar el interior del vehículo.
Sanidad
En medicina, la visión por ordenador se utiliza para analizar imágenes médicas, mejorar los procedimientos de diagnóstico y detectar enfermedades. Algunos ejemplos son el análisis de imágenes de rayos X, tomografías computarizadas o resonancias magnéticas.
Venta al por menor
Las empresas del sector minorista utilizan la visión por ordenador para analizar el comportamiento de compra de los clientes, automatizar el seguimiento del inventario, ofrecer recomendaciones orientadas al cliente y mejorar los sistemas de prevención de robos.
Agricultura
La visión por ordenador se utiliza en agricultura para detectar enfermedades de las plantas, controlar el crecimiento de los cultivos, automatizar los procesos de recolección y optimizar el uso de fertilizantes o pesticidas.
Autoridades y bancos
En este caso, la visión por ordenador se utiliza en el procesamiento de documentos para leer automáticamente documentos como pasaportes, documentos de identidad o permisos de conducir y extraer la información pertinente. De este modo se agilizan procesos administrativos como la verificación de la identidad o la Creación de documentos.
La aplicación de la visión por ordenador en las administraciones públicas y Bancos ayuda a mejorar la seguridad, la eficacia y la experiencia del cliente.
Estos ejemplos ilustran que la visión por ordenador se utiliza en diversos ámbitos para mejorar los procesos, aumentar la eficacia, incrementar la seguridad y desarrollar nuevas soluciones innovadoras.
La visión por ordenador como subcampo de la IA
Inteligencia Artificial (IA)
La inteligencia artificial (IA) se refiere a la capacidad de los ordenadores o sistemas de máquinas para realizar tareas que normalmente requerirían el pensamiento humano. Implica el desarrollo de algoritmos y técnicas que permiten a los ordenadores analizar datos, reconocer patrones, sacar conclusiones y resolver problemas.
Visión por ordenador (CV)
La visión por ordenador utiliza el aprendizaje automático y el aprendizaje profundo para analizar e interpretar datos visuales. Esto implica tareas como el reconocimiento de objetos, la clasificación de imágenes, el reconocimiento facial, la segmentación de imágenes, el seguimiento del movimiento y mucho más. Mediante el uso de modelos de aprendizaje profundo, especialmente redes neuronales convolucionales (CNN), los sistemas de visión por ordenador pueden gestionar tareas visuales complejas con gran precisión.
El uso del aprendizaje profundo en visión por ordenador ha dado lugar a avances significativos en el reconocimiento, análisis y procesamiento de imágenes. Al entrenar grandes redes neuronales con grandes cantidades de datos, los sistemas de visión por ordenador pueden reconocer y comprender patrones y características complejas en las imágenes.
"La visión por computador es, por tanto, un área de aplicación dentro de la inteligencia artificial que se basa en el aprendizaje automático y, en particular, en el aprendizaje profundo."
Aprendizaje automático (ML)
El aprendizaje automático (Machine Learning, ML) es un término genérico que engloba varios algoritmos y técnicas que permiten a un sistema informático aprender de la experiencia y reconocer patrones en los datos. Permite al ordenador realizar tareas o predicciones sin estar explícitamente programado para la aplicación.
Aprendizaje profundo (DL)
El aprendizaje profundo es un enfoque especial del aprendizaje automático basado en redes neuronales artificiales. Estas redes constan de varias capas interconectadas. De ahí procede el término "profundo", del inglés "deep". Los modelos de aprendizaje profundo son capaces de aprender automáticamente representaciones abstractas de los datos mediante la extracción de características jerárquicas en los datos. Muy a menudo, estas aplicaciones se utilizan en la llamada nube.
Visión por ordenador frente a visión artificial: las diferencias
Visión por ordenador y visión artificial son términos que a menudo se utilizan como sinónimos. Principalmente porque se refieren a conceptos y tecnologías similares. Sin embargo, existen algunas diferencias sutiles entre ambos términos.
Visión por ordenador
La visión por ordenador es el campo científico y técnico que se ocupa del procesamiento, análisis e interpretación automatizados de la información visual. Su objetivo es conseguir que los ordenadores vean como los humanos.
Abarca una amplia gama de técnicas para capturar, comprender e interpretar datos visuales (imágenes o vídeos). Incluye el procesamiento de imágenes, el reconocimiento de patrones, el reconocimiento de objetos, la segmentación de imágenes, la reconstrucción 3D y mucho más. La visión por ordenador encuentra aplicación en diversos campos, como el reconocimiento de documentos, el reconocimiento facial, la obtención y análisis de imágenes médicas, los sistemas de vigilancia en seguridad con imagen y vídeo, etc.
Visión artificial
La tecnología de visión artificial ayuda a las plantas industriales a tomar decisiones sobre el terreno. La aplicación de la visión artificial se utiliza en inspección visual y detección de defectos, posicionamiento y reconocimiento, clasificación de objetos, etc.
La visión artificial es una de las técnicas fundadoras de la automatización industrial y ha contribuido a mejorar la calidad de los productos, acelerar la producción y optimizar la fabricación.
En resumen, la visión por ordenador es un concepto más amplio. Se ocupa de toda la gama de procesamiento e interpretación de la información visual, tanto en forma de imagen como de vídeo. La visión artificial es un subconjunto específico de la visión por ordenador. La visión artificial utiliza a menudo técnicas de la visión por ordenador para alcanzar sus objetivos.
Definición Visión por ordenador (resumida)
"En términos generales, la visión por ordenador puede describirse como la capacidad artificial de asimilar datos visuales (imagen, vídeo) y, al mismo tiempo, leerlos, comprenderlos y reaccionar ante ellos. Es similar a la forma en que el ojo humano y el cerebro trabajan juntos de forma natural.
Historia del desarrollo de la visión por ordenador
A continuación se exponen algunos hitos y avances en la historia de la visión por ordenador. El gran público conoció sus impresionantes capacidades en 2017. Porque en ese momento, la red neuronal AlphaGo contra el campeón del mundo en Juego de mesa Go en uso victorioso, demostrando así las capacidades de los sistemas de IA en percepción visual en la vida real.
- 1960s
- - 1966: La Summer Vision Conference desarrollada por Marvin Minsky se considera uno de los primeros hitos en la historia de la visión por ordenador. En ella se debatieron los fundamentos y los retos.
- 1970s
- - 1970: Lawrence Roberts desarrolla el primer sistema de tratamiento de imágenes capaz de reconocer formas geométricas.
- - 1973: Michael Fischler y Robert Elschlager desarrollan el Modelo pictórico de estructuras para detectar y seguir objetos en imágenes.
- 1980s
- - 1980: David Marr desarrolla una teoría de la percepción visual y presenta un modelo matemático para el análisis de imágenes.
- 1983: El Transformación de características invariantes de escala (SIFT) de David Lowe permitió reconocer y describir con solidez las características de las imágenes.
- - 1986: El Procesos de flujo óptico de Berthold K. P. Horn y Brian G. Schunck permitieron seguir el movimiento de objetos en secuencias de imágenes.
- 1990s
- 1994: El Modelo de Apariencia Activa (AAM) de Timothy Cootes permitió modelar y seguir los rasgos faciales en tiempo real.
- 1999: El Procedimiento acelerado de características robustas (SURF) de Herbert Bay, que permitió extraer características de las imágenes de forma rápida y robusta.
- 2000s
- 2001: El Procedimiento Viola Jones para el reconocimiento facial en tiempo real fue desarrollado por Paul Viola y Michael Jones.
- 2012: AlexNet, una red neuronal profunda, ganó el concurso ImageNet y mejoró significativamente el rendimiento en la clasificación de imágenes.
- Desde 2010 hasta hoy
- 2014: El Red Generativa Adversarial (GAN) de Ian Goodfellow permitió generar imágenes realistas.
- - 2015: El Red neuronal convolucional (CNN) ResNet consiguió una precisión muy alta en la clasificación de imágenes.
- 2017: El Red neuronal AlphaGo derrotó al campeón mundial del juego de mesa Go y demostró las capacidades de los sistemas de IA en percepción visual.
- 2020: El Transformador-Modelodesarrollado originalmente para el procesamiento del habla, se aplicó a la visión por ordenador y dio lugar a importantes avances en el procesamiento de imágenes y la interacción texto-imagen.
Estos hitos han marcado el desarrollo y el progreso de la visión por ordenador y han dado lugar a una amplia gama de aplicaciones en ámbitos como la conducción autónoma, la medicina, la seguridad, el entretenimiento (cine, vídeo) y el procesamiento de documentos.
Resumen de los hitos del CV
- Modelo pictórico de estructuras
- Transformación de características invariantes de escala
- Flujo óptico
- Modelo de Apariencia Activa
- Procedimiento acelerado de características robustas
- Procedimiento Viola Jones
- Red Generativa Adversarial
- Red neuronal convolucional
- Modelo de transformador
Perspectivas de futuro
La visión por ordenador sigue siendo un campo de investigación activo con un gran potencial de desarrollo e innovación de cara al futuro. El aprendizaje está en continuo desarrollo debido a la gran cantidad de datos que se leen a diario.
Visión por ordenador frente al síndrome de visión por ordenador
La visión por ordenador no tiene nada que ver con la Síndrome de visión por ordenador (CVS). En este caso, el término se utiliza en un contexto completamente distinto: concretamente, cuando se trata de la fatiga visual provocada por mirar la pantalla durante demasiado tiempo. Quien pasa mucho o demasiado tiempo delante de la pantalla leyendo y estudiando puede, por ejemplo, padecer aquí ver diez pasos útiles para aliviar el CVS.
PREGUNTAS FRECUENTES
¿Qué es la visión por ordenador?
La visión por ordenador es un campo de la informática que se ocupa del procesamiento, análisis e interpretación automatizados de datos visuales para que los ordenadores puedan ver de forma similar a los humanos.
¿Dónde se utiliza la visión por ordenador?
Automatización industrial, Tratamiento de documentosrobótica, automática Comprobación de documentosLa tecnología de la información, la realidad aumentada (RA), el reconocimiento facial, las imágenes médicas, la vigilancia y la seguridad, Gestión de documentosetc.
Por cierto, Microsoft utiliza CV en su plataforma en la nube Azure.