Anotaciones en documentos Herramientas PNL

Anotaciones en documentos Herramientas PNL | Actualización 2023

Florian Zyprian

Descargo de responsabilidad: Konfuzio.com ofrece una alternativa comercial incl. SLA a las herramientas de código abierto aquí presentadas.

¿Qué herramienta de anotación es la mejor para su próximo proyecto de Procesamiento del Lenguaje Natural para permitir anotaciones en documentos?

Anotaciones en documentos PDF para PNL y visión por ordenador

Muchas herramientas de anotación están disponibles gratuitamente. Una corriente Artículo presenta varias docenas. Complementamos este artículo científico con los requisitos en el contexto corporativo para las herramientas de anotación de PNL. En la segunda sección analizamos de forma práctica algunas de las herramientas disponibles.

Anotaciones en distintos formatos de datos

A Artículos de Hacker News describe la gran complejidad del procesamiento de PDF. Los 700 comentarios siguientes reflejan el interés por los documentos PDF como base de datos para la formación en PNL. Los que quieran saber más sobre "¿Qué tiene de difícil la extracción de texto en PDF?", pueden encontrar aquí una buena visión de conjunto. Se puede resumir que a los usuarios corporativos les resulta difícil acceder al texto de los PDF o las imágenes para entrenar modelos de PNL.

Contexto mediante relaciones de anotaciones

Sólo la comprensión de las dependencias conduce a un valor añadido a través de la PNL en el mundo empresarial. Desde un punto de vista profesional, a menudo no basta con reconocer el nombre o los apellidos de una persona. El contexto de esta persona debe anotarse y aprenderse posteriormente a partir de la PNL. Por ejemplo, es importante para la comprensión profesional si se trata del nombre de pila del vendedor o del comprador.

Anotar documentos en equipo 

En las empresas, distintas personas contribuyen a un conjunto de datos de alta calidad. Ya durante la recogida de datos, distintos departamentos o personas suelen proporcionar datos. Asimismo, al realizar anotaciones en el proyecto de PNL, distintos usuarios ayudan a los expertos en PNL a crear los datos de PNL. Los usuarios experimentados tienen que comprobar la anotación de los usuarios menos experimentados. Los anotadores experimentados deben poder revisar las anotaciones de los usuarios menos experimentados. Este proceso puede mejorar la calidad de los datos y acelera el aprendizaje organizativo.

Anotación automatizada en documentos

Una vez que un experto ha entrenado un modelo de PNL, los anotadores deben utilizarlo para ahorrar tiempo. Los anotadores deben utilizar el modelo para generar nuevas anotaciones automáticamente. En lugar de crear nuevas anotaciones, deberían revisarlas. Las anotaciones automatizadas ayudan a los anotadores a concentrarse y anotar más datos en bruto. Las anotaciones sugeridas acortan el tiempo necesario para procesar los datos brutos, ya que los humanos han corregido las anotaciones incorrectas con mayor rapidez que añadiendo anotaciones que faltaban. Incluso con modelos menos precisos, los científicos de datos ayudan a crear buenos conjuntos de datos manualmente.

Características visuales para mejorar la PNL

A diferencia de los tweets, la posición del texto dentro de un documento comercial contiene información. Por ejemplo, los números de teléfono de contacto suelen aparecer en la esquina superior derecha. La herramienta de anotación debe ser capaz de convertir cualquier secuencia de texto en un cuadro delimitador y un número de página. Las posiciones visuales complementan las características de la PNL y aumentan la precisión del modelo.

Herramientas de anotación PNL gratuitas en 2023

Las siguientes herramientas son gratuitas, se instalan desde el navegador. Estas herramientas gratuitas de anotación ya han demostrado su utilidad para muchos científicos de datos. En Konfuzio sentimos un gran respeto por los desarrolladores que han creado estas herramientas. Sin embargo, seguiremos cuestionando estas herramientas en función de las necesidades de los usuarios empresariales. Hemos probado todas las herramientas tras su instalación y configuración.

asado

La herramienta brat está basada en navegador y permite la anotación de archivos de texto. Destaca las relaciones entre anotaciones. La configuración permite marcar anotaciones de gran complejidad dentro del texto. Al cargar el archivo de texto, éste pierde su formato, al menos en la interfaz. Además, anotar texto en más de una línea suele dar lugar a errores. La herramienta brat está disponible bajo la licencia MIT por sí sola Página de inicio listo para descargar.

Doccano

Doccano es una herramienta de anotación basada en navegador para categorizar, traducir y anotar secuencias. La configuración a través de Docker permite una sencilla Despliegue. Doccano está en GitHub disponible bajo licencia MIT. Actualmente, sólo es posible la anotación de archivos de texto. No es posible agrupar anotaciones individuales. Es posible añadir anotaciones automáticamente a través de la API. Lamentablemente, los usuarios no pueden filtrar las anotaciones automatizadas frente a las revisadas. Esto hace casi imposible el control manual de las anotaciones creadas automáticamente.

INCEpCIÓN

Como sucesor de WebAnno INCEpTION ofrece una solución sofisticada pero compleja. La herramienta, que tiene su origen en la investigación científica, ofrece un Documentación y un Demostración en directo. Para alojar datos confidenciales, la aplicación puede instalarse en su propio servidor. INCEpTION utiliza la Licencia Apache v2.0 de código abierto. La edición de PDF parece posible a través de PDF.js ser posible. Lamentablemente, el diseño del texto se pierde durante esta conversión de texto con el visor de PDF. Según la documentación, las anotaciones no pueden crearse automáticamente.

PDFAnno

Centrada en permitir al usuario anotar PDF, esta herramienta ofrece una interfaz web. Sólo un usuario a la vez puede crear una anotación en un documento. La colaboración con otros sólo es posible importando o exportando los datos. La herramienta se basa en PDF.js para renderizar el PDF. Dado que PDF.js carga todo el PDF antes de empezar a editarlo, la anotación de PDF de gran tamaño provoca tiempos de carga prolongados. En Proyecto GitHub (licencia MIT) está archivada.

Puede encontrar todas las herramientas para anotaciones aquí.

Anotaciones NLP en documentos con Konfuzio

Las herramientas de anotación gratuitas son estupendas y se centran sobre todo en el usuario final individual, por ejemplo, un científico de datos que trabaja solo en un proyecto de PNL. En un contexto empresarial, las características de estas herramientas sólo mapean los requisitos de forma muy heterogénea. Esto nos llevó a desarrollar Konfuzio en 2018. Nuestro objetivo es que las empresas puedan crear modelos de PLN rápidamente, sobre cualquier fuente de datos y en colaboración. Estaremos encantados de recibir opiniones sobre otras herramientas. Nuestra herramienta para anotaciones en documentos combina la capa visual y el texto.

Módulos Konfuzio:

  1. Servidor KonfuzioEl servidor Konfuzio ofrece un servicio web para el tratamiento de documentos. Los resultados del procesamiento de documentos se proporcionan en formato JSON a través de servicios API REST multicliente. La aplicación diferencia a los usuarios por funciones y ofrece la posibilidad de configurar permisos de creación, lectura, actualización y eliminación (CRUD). Código fuente cerrado, véase Documentación.
  2. Konfuzio SDK de PythonEl kit de desarrollo de software Konfuzio (Konfuzio SDK) es un conjunto de herramientas de programación y bibliotecas de programas que se utilizan para desarrollar software. Ayuda a los desarrolladores de software a crear aplicaciones basadas en él y, por tanto, a crear procesos documentales definidos por el usuario para la clasificación, extracción y segmentación de documentos. Enlace al repositorio Git de GitHub.
  3. Konfuzio Interfaz de usuario de validación de documentosInterfaz de usuario de validación de documentos : La interfaz de usuario de validación de documentos es una interfaz de usuario intuitiva que ayuda a los usuarios del servidor Konfuzio a navegar por los distintos pasos necesarios para validar la información extraída de un documento concreto. Enlace al repositorio Git de GitHub.
  4. Konfuzio Helm Chart: El Konfuzio Helm Chart proporciona la configuración para ejecutar el servidor Konfuzio para instalarlo, ejecutarlo, actualizarlo y escalarlo en Kubernetes. Enlace al repositorio Git.
FunciónasadoDoccanoINCEpCIÓNPDFannoKonfuzio
Formatos de datos
Contexto
Team-First
Automatizaciónsi es necesario.
Características visuales
Gratuito
Con estas herramientas se pueden crear anotaciones en documentos, imágenes y texto.

    Recibir actualizaciones

    Suscríbase a nuestro boletín.

    Sobre mí

    Más artículos interesantes

    API REST: definición, funcionamiento y desarrollo

    En 2000, el informático Roy Fielding y un grupo de desarrolladores decidieron crear un nuevo estándar para la comunicación entre servidores.

    Leer el artículo
    División de documentos

    Clasificación de documentos y separación de documentos mediante IA

    Uno de los problemas de la automatización de documentos que a menudo se pasa por alto y es realmente difícil, y que además resulta muy molesto en el día a día, es...

    Leer el artículo

    6 herramientas ETL gratuitas de código abierto para empresas

    Clientes, empleados, productos y sistemas internos: las empresas actuales recopilan enormes cantidades de datos en todos los procesos empresariales. Para crear valor a partir de...

    Leer el artículo
    Flecha arriba