Extracción de datos de documentos - How To III

Datos de formación uniformes: Teoría y práctica

Después de haber aprendido lo básico en Instrucción 1 y secciones en Instrucción 2 deberías estar preparado para trabajar en tu propio proyecto. 

Preguntas típicas de nuestros clientes:

Ya hemos acompañado muchos proyectos de nuestros clientes y una y otra vez nos hacen las siguientes preguntas: 

  • ¿Cómo debe ser el conjunto de datos de entrenamiento? 
  • ¿Qué debo marcar exactamente? 
  • ¿Debo etiquetar el símbolo del euro con una cantidad monetaria? 
  • ¿Debo etiquetar también una fecha que se menciona varias veces en el documento?
  • ¿Debo incluir las comas en las listas con viñetas? 

Debido a la gran versatilidad del Konfuzio, muchas respuestas dependen de cada caso. Sin duda, sus preguntas diferirán en cierta medida de éstas. Sin embargo, la mayoría de las preguntas se aclararán simplemente comprendiendo cómo piensa y funciona nuestra IA. Utilizaremos este principio para responder a las preguntas que se plantean a continuación.

También le mostramos prácticas Consejos para el éxito del proceso de formación.

Preguntas y respuestas

¿Cómo piensa la IA?

La IA Konfuzio no funciona en función de reglas, sino de resultados. Considera los datos de entrenamiento como el resultado deseado y establecerá reglas para sí mismo con el fin de aplicarlas a nuevos documentos y tratar de lograr un resultado correspondiente. Para que pueda reconocer estructuras claras en este proceso, también se debe proceder de forma claramente estructurada al etiquetar manualmente. Las irregularidades que para nuestro cerebro humano no tienen importancia harán que la IA busque reglas y estructuras que no existen, lo que le dificultará tomar las decisiones correctas.

¿Cómo debe ser el conjunto de datos de entrenamiento?

Cuanto más uniformes u homogéneos sean los documentos entre sí, más precisos serán los resultados. Los documentos estandarizados o normalizados son óptimos. Sin embargo, esto no suele ser así y está fuera de nuestro control. En principio, esto no es un problema para Konfuzio, pero significa que la importancia de la calidad y la cantidad de los datos de entrenamiento aumenta con la heterogeneidad de los documentos.

¿Qué debo etiquetar exactamente?

La respuesta corta: etiqueta lo que quieras leer en voz alta más tarde, pero hazlo con coherencia.

¿Debo etiquetar las monedas con importes monetarios?

Por ejemplo, para los importes monetarios, debe etiquetar siempre la moneda (por ejemplo, el símbolo del euro) u omitirla siempre. No importa el camino que elijas. Es importante hacerlo en todos los documentos y también dentro de un documento de una sola manera. Por supuesto, esto también se aplica a otras unidades como kg, m2, etc. y a otra información compuesta.

¿Debo marcar también una fecha que se menciona varias veces en el documento?

Tomemos el siguiente ejemplo. La fecha aparece en la esquina superior derecha de todas las páginas de un tipo de documento. ¿Debe figurar la fecha en todas las páginas? En un documento con muchas páginas, esto puede llevar bastante tiempo. Normalmente, esto se sigue haciendo en el primer documento, luego en el segundo sólo se marca la fecha en las 3-4 primeras páginas y en el tercero sólo en la primera página. 

Aquí se produce el siguiente problema. La IA buscará una razón por la que la fecha de la quinta página del primer documento era relevante, pero la de la segunda página del tercer documento no lo era. Pero como aquí no hay ninguna razón significativa, la IA estará "confundida", en términos humanos, lo que tiene un efecto negativo en los resultados. 

Para evitarlo, se aplica de nuevo la palabra clave uniformidad. Marque la información repetida siempre en todas las páginas o siempre sólo en la primera página.

¿Debo incluir signos de puntuación?

Por coherencia, es importante que, al leer palabras sueltas de los textos, no se marquen las comas, los puntos, los paréntesis ni otros signos de puntuación. Sólo debe marcar el contenido que desea leer. Los signos de puntuación suelen proceder del contexto de la estructura de la frase, pero son más bien arbitrarios en función de los datos de entrenamiento y, por tanto, no son adecuados para ser analizados con fines de predicción. De lo contrario, en el futuro, la IA buscará una coma al final de la palabra a leer, aunque no tenga nada que ver con la información buscada.


Consejos para el éxito del proceso de formación

Ahora que ya conoce la teoría sobre cómo crear datos de entrenamiento de alta calidad a través de la uniformidad, nos gustaría darle algunos consejos prácticos que puede utilizar para aplicar esta teoría en su proyecto.

Crear una guía de etiquetado

Una guía de etiquetado es un documento que contiene normas básicas y especiales para etiquetar un tipo de documento. Describe qué hay que etiquetar y cómo, y a menudo se apoya en capturas de pantalla. En grandes proyectos en los que varias personas participaban en el etiquetado, a menudo han resultado necesarias. El objetivo es la uniformidad descrita anteriormente, que se consigue mediante la adhesión de todos los participantes a estas directrices. Cuando varias personas trabajan en los mismos documentos, suelen etiquetarlos de distintas maneras. Para documentos sencillos con pocas personas, los acuerdos verbales suelen ser suficientes. Para un proyecto complejo, sin embargo, recomendamos nuestra plantilla. 

No dude en ponerse en contacto con nosotros a través del Formulario de contactopara obtener una plantilla.

Utilizar el método de los cuatro ojos

Comprueba tus datos de entrenamiento. Incluso los usuarios experimentados cometen errores. Para minimizar los errores, lo ideal es que al menos otra persona compruebe la exactitud y coherencia de las anotaciones. De este modo, los errores por descuido y las desviaciones de la guía de etiquetado pueden detectarse y corregirse. En particular, la asignación incorrecta de secciones puede reducir considerablemente la calidad del modelo de IA. Encontrará información sobre cómo comprobarlo en Instrucción 2

También puede utilizar el siguiente método para distribuir eficazmente las tareas durante la revisión. Cuando la persona 1 ha etiquetado un documento, lo añade al conjunto de datos de preparación. De este modo, la persona 2 sabe que está listo para su revisión. Después de que la persona 2 haya añadido el documento al conjunto de datos de formación tras su revisión, todos los implicados sabrán que ha sido revisado.

Reservar un control semanal

Una reunión semanal ayuda a su equipo a construir un entendimiento común. Recomendamos un retiro antes de esta reunión, véase Paso 6 de la instrucción 1. En esta reunión puede analizar la evaluación del último modelo e identificar y discutir automáticamente posibles errores en los datos de prueba y entrenamiento. Un experto en Konfuzio puede aportar valiosos consejos y trucos directamente a la reunión.


¿Alguna pregunta? Trabajamos constantemente para mejorar nuestras instrucciones para que puedas utilizar Konfuzio de la forma más rápida y sencilla posible. Por favor, háganos saber si queda alguna pregunta sin responder para que podamos ofrecerle la mejor solución posible. Gracias.

"
"
Avatar de Maximilian Schneider

Últimos artículos