Bingo de palabras de moda: cuando los términos técnicos fallan

Maximilian Schneider

Hoy nos hacemos eco de la opinión de Dan Lucarini, quien, en su calidad de destacado analista de IDP (Intelligent Document Processing), sostiene que la diversidad terminológica en nuestro campo causa más confusión de la que ayuda. Sin embargo, como ocurre a menudo, la moneda tiene dos caras.

Sospecho que esta ensalada de palabras de marketing es consecuencia del miedo a perderse algo que está infectando a los directivos.

Dan Lucarini, Documentos, contenidos, archivos, registros, datos semiestructurados o no estructurados: ¿de verdad importan ya las etiquetas?

En primer lugar, es importante subrayar que comprendemos perfectamente las preocupaciones de Dan. Sostiene que los términos que utilizamos para describir los tipos de datos que procesamos, ya sean "documentos", "contenido", "archivos", "registros", "datos semiestructurados" o "datos no estructurados". - causan confusión y, en última instancia, tienen poca importancia. Este punto de vista es comprensible.

El problema, sin embargo, dice Dan, surge cuando estos términos se utilizan de forma inculta e inflacionista. La jerga del sector, cuando se usa mal o en exceso, puede convertirse en palabras de moda que crean confusión y diluyen la intención original de los términos.

En parte estamos de acuerdo. Sin embargo, es importante recordar que los términos técnicos en ciencia y tecnología suelen existir por una buena razón. Permiten una comunicación precisa y clara entre expertos. Sin embargo, cuando se sacan de su contexto original y se utilizan de forma inflacionista, pueden convertirse en una especie de "bingo de palabras de moda" en el que se pierde el verdadero significado de los términos.

Explicación profana: OCR y su representación por algunas empresas

Reconocimiento óptico de caracteres (OCR) es básicamente una tecnología que permite a los ordenadores "leer" texto impreso o manuscrito a partir de imágenes o documentos impresos.

Imagina que tienes una foto de un cartel que dice "Abierto de 9 de la mañana a 6 de la tarde". Usted podría Tesseract OCR para digitalizar este texto.

Este es el comando que podría introducir en su línea de comandos para iniciar Tesseract, ver Guía de instalación(suponiendo que la imagen se llame "schild.jpg"):

tesseract shield.jpg salida

Este comando le dice a Tesseract que tome la imagen "shield.jpg" y escriba el texto reconocido en un archivo llamado "output.txt".

Si a continuación abre el archivo resultante "output.txt", es posible que vea el siguiente texto:

Abierto de 9.00 a 18.00 h.

En algunos casos, además del texto en bruto, se devuelve la posición óptica de las letras, véase BoundingBox. Pero recuerde que Tesseract (o cualquier otro programa de OCR) no reconoce automáticamente que se trata de horarios de apertura o que "de 9 de la mañana a 6 de la tarde" representa horas concretas del día. Tales interpretaciones y análisis van más allá de las funciones básicas del OCR puro.

Pronto, sin embargo, el OCR se convirtió en la cura milagrosa

Esa es la función básica del OCR. En los inicios de la tecnología, esto ya era todo un logro, ya que ahorraba mucho trabajo manual y permitía editar y buscar textos en formato digital.

Con el tiempo, sin embargo, algunas empresas han ampliado considerablemente la presentación del OCR y lo han comercializado como una especie de cura milagrosa para una serie de retos de gestión de datos y documentos. Presentan el "OCR" como una solución para tareas como la extracción de datos, Análisis de textoscategorización automática de documentos y mucho más.

Sin embargo, en realidad, muchas de estas funciones avanzadas no forman parte de la tecnología de OCR en sí, sino que son el resultado de integrar el OCR con otras tecnologías, como la inteligencia artificial, el aprendizaje automático o el Procesamiento del lenguaje natural. Así, incluso los modelos más recientes, como los de LayoutLM, R-CNN o Pegasus siempre OCR como base.

Recientes investigaciones apuntan a la posibilidad de eliminar por completo el OCR como tecnología de enlace entre el tratamiento de imágenes y el de textos, véase Papel DONUT.

Aunque estas soluciones mejoradas son indudablemente valiosas y pueden ofrecer ventajas significativas, es importante recordar que el "OCR" en sí mismo es sólo una pieza del rompecabezas. Permite a las máquinas "ver" y reconocer texto, pero las funciones adicionales que a menudo se comercializan bajo el término "OCR" requieren tecnologías y conocimientos adicionales.

¿Siguen siendo necesarios los términos técnicos?

Sea lo que sea lo que envíes, la IA lo descompone todo en componentes de texto, diseño, imagen, número de páginas, etc., digeribles por la máquina.

Dan Lucarini, Documentos, contenidos, archivos, registros, datos semiestructurados o no estructurados: ¿de verdad importan ya las etiquetas?

Aprecio mucho la ejecución un tanto exagerada de Dan. Sin embargo, tenemos que discrepar en un punto concreto. En concreto, en su afirmación: En primer lugar, a la GPT y a otros LLM básicos les da igual la etiqueta genérica que utilicemos para las "cosas" que le hemos dado para que las entienda y analice. Un modelo de inteligencia artificial no distingue entre documentos/contenidos/datos/archivos "estructurados", "semiestructurados" o "no estructurados". Sea lo que sea lo que envíes, la IA lo descompone en componentes de texto, diseño, imagen, número de página, etc., que la máquina puede digerir.

Es cierto que Grandes modelos lingüísticos (LLM) como GPT-3 pueden procesar contenidos a un nivel muy básico, pero no son capaces por sí solos de realizar tareas complejas como la segmentación de páginas o el procesamiento profundo del texto basado en el contexto. Los LLM son una herramienta potente, pero no son la única solución para todo tipo de procesamiento de documentos.

Clara elección de palabras y, sin embargo, ¡no simplifican!

Diversas investigaciones, especialmente en segmentación de páginas, han demostrado que actualmente la mejor calidad de tratamiento se consigue dividiendo los documentos contextualmente. Esto significa que el modelo tiene en cuenta no sólo el texto en sí, sino también la estructura y el diseño del documento. El uso del contexto visual ayuda a comprender y procesar mejor el documento. Por ejemplo, una tabla en un documento no es sólo una colección de texto continuo, sino un bloque de información claramente estructurado que debe interpretarse de una determinada manera.

Los LLM más recientes también pueden beneficiarse del procesamiento contextual. La información de texto plano que procesa un LLM puede mejorarse enormemente con información contextual como "Este texto está en una tabla". Comprender el contexto puede llevar al modelo a interpretar el texto de una forma más cercana a la interpretación humana.

En general, no debemos subestimar la importancia de los conceptos específicos de cada ámbito. No sólo son una idiosincrasia humana, sino que también pueden contribuir a que los modelos de IA sean más eficaces y precisos. El tratamiento de documentos "estructurados", "semiestructurados" o "no estructurados" puede ser muy distinto y producir resultados diferentes. Depende del método exacto utilizado para el tratamiento. En función del escenario de aplicación y de los requisitos específicos, resultan apropiados distintos enfoques.

Conclusión

Quizá la solución sea prescindir por completo de los términos técnicos, pero utilizarlos de forma más consciente y cuidadosa. Educación y comprensión son palabras clave. Es nuestra responsabilidad como expertos garantizar que no sólo utilizamos los términos correctos, sino que también transmitimos el significado que hay detrás de ellos.

Por mucho que apreciemos la crítica de Dan al uso excesivo de términos técnicos, creemos que la sugerencia de dejar totalmente en manos de la IA la división del conocimiento y el contexto es problemática. Al fin y al cabo, nuestro trabajo como expertos es hacer comprensibles conceptos complejos sin dejar de ser precisos y científicamente correctos.

Evitemos el bingo de palabras de moda. Sólo los términos técnicos utilizados con conocimiento de causa crean conocimiento y siguen teniendo sentido. Así nos aseguramos de que nuestra comunicación en el sector no sólo sea precisa, sino también comprensible.

Pero seguro que hasta nuestro equipo editorial ha utilizado una o dos palabras con demasiada frecuencia y no las ha definido con precisión. Si se da cuenta de algo, Contacto y arreglamos una posible palabra de moda.

Sobre mí

Más artículos interesantes

Transformación digital en los bancos

Más allá del nihilismo digital: transformación digital efectiva en la banca

Son las relaciones, no la tecnología, lo que constituye el núcleo de nuestra existencia. Los negocios florecen a la sombra de la confianza....

Leer el artículo
Mohamed Amine Dhiab

Hola, soy Mohamed Dhiab 👋

Soy un experimentado ingeniero de aprendizaje automático, asistente de investigación y desarrollador full-stack con un don para desarrollar soluciones tecnológicas innovadoras para la...

Leer el artículo

Teorema de papá-broma: instrucciones de uso en situaciones cotidianas

Nuestro Teorema del Chiste de Papá, presentado como patrocinador en el popular evento Adventofcode.com. Armar este teorema es un enfoque lúdico, pero serio, de...

Leer el artículo
Flecha arriba