De PDF a texto - Guía paso a paso

Durante muchos años, el formato de archivo PDF se ha establecido como el estándar para la distribución digital de documentos. Todos los dispositivos, ya sean PC, smartphones o tabletas, son capaces de leer PDF. Los visores han sido gratuitos desde el principio. Esto ha contribuido enormemente a su uso generalizado.

Además, el formato se amplía continuamente, por ejemplo, para poder rellenar formularios o establecer firmas. Sin embargo, los problemas empiezan cuando se quiere procesar la información dentro del documento PDF. Copiar y pegar manualmente rara vez funciona, ya que el texto suele guardarse también como información de imagen, por no hablar del aspecto temporal. Los proveedores han abordado este problema de diferentes maneras para que la conversión de PDF a texto pueda realizarse de forma estructurada, automatizada e inteligente. A continuación nos gustaría analizar estos procesos.

Antecedentes de la conversión de texto a PDF

Cuando se habla de conversión de PDF a texto, generalmente se refiere al proceso mediante el cual los conversores extraen automáticamente el contenido textual de un documento PDF y lo convierten en un formato de texto editable. Esto puede ser útil si se desea procesar posteriormente el texto de un documento PDF o utilizarlo en otra aplicación. Existen muchas herramientas y servicios que automatizan este proceso y facilitan la conversión de PDF a texto.

Algunas de estas herramientas también ofrecen la opción de conservar elementos especiales de diseño o formato, como tablas o párrafos, para garantizar que el texto se reproduzca lo mejor posible en la nueva aplicación. La conversión de PDF a texto también puede ser útil cuando se desea extraer el texto de un documento PDF escaneado en el que la fuente sólo está presente como información de imagen. Para ello se utilizan tecnologías OCR (reconocimiento óptico de caracteres), que interpretan la información de la imagen y generan el texto.

Dependiendo de las capacidades del usuario y de los objetivos de la conversión de un PDF a texto, Konfuzio ofrece varias opciones para extraer el texto (por ejemplo, como archivo TXT o Word). Éstos son de un vistazo:

  1. El proceso manualPara las conversiones ocasionales, los archivos PDF pueden cargarse manualmente en las plataformas de conversión para recibir de vuelta el texto leído en forma de descarga para su posterior procesamiento individual.
  2. A través de la interfaz de programación de aplicaciones (API)Para volúmenes de documentos mayores, se pueden utilizar API flexibles para crear procesos eficaces que permitan automatizar las conversiones de PDF a texto con un poco de programación.
  3. A través de las bibliotecas de programasLa funcionalidad de conversión está disponible a través de las bibliotecas de programas directamente en el código fuente de su propia aplicación. Aquí son muy populares las ofertas para el lenguaje de programación Python.

Variante 1 - Instrucciones para el proceso manual

  1. Abre un conversor público de PDF a texto. Suelen permitir conversiones gratuitas.
  2. Siga las instrucciones de la plataforma para cargar su propio archivo PDF desde su ordenador local a la plataforma.
  3. Tras cargar el archivo PDF, la plataforma genera el texto puro, normalmente aún sin estructurar. El texto puede copiarse en un campo de texto del sitio web. O la aplicación ha generado un archivo de texto para descargar.
  4. Copie el texto del archivo generado o de la página web directamente en el TextView de la plataforma Konfuzio.
  5. Basta con aplicar etiquetas (anotaciones) directamente a los datos aún no estructurados para entrenar a la inteligencia artificial en la forma específica de los datos.

Anotación manual mediante TextView

Variante 2 - Instrucciones para la conversión de PDF a texto mediante API

Esta variante requiere conocimientos de programación. Además, se necesitan ideas claras sobre qué categorías de documentos cabe esperar para que el tratamiento posterior de los textos tras la conversión sea lo más eficiente posible.

  1. El documento se carga en el servidor mediante un comando API. Para ello, se especifican la categoría y el proyecto asociado (Pruébelo aquí)
  2. En cuanto la carga se haya realizado correctamente, el documento aparecerá en la interfaz del administrador de Konfuzio, ya asignado a la categoría correcta.
  3. La información del texto ya ha sido leída en el PDF por Konfuzio y está disponible para el programa (Pruébelo aquí)
  4. El archivo puede abrirse ahora a través de la interfaz del administrador para asignar anotaciones a la información textual con el fin de clasificarla. Con IA entrenada, este paso también se automatiza.

PDF a texto mediante la API Konfuzio

En un vídeo ilustrativo se muestra una completa introducción al trabajo con la API aquí.

Variante 3 - Instrucciones de uso del SDK de Python

Para los desarrolladores que ya están familiarizados con Python, el uso del Konfuzio Python SDK como biblioteca de código para la integración rápida de las funcionalidades de conversión y procesamiento es particularmente fácil. La integración de las llamadas a la API ya está implementada aquí de forma sencilla. Es muy potente, pero aquí queremos centrarnos en la conversión de PDF a texto.

  1. Si se trata del primer uso de las funcionalidades del SDK, el desarrollador deberá descargarlo e instalarlo primero en su propio entorno de desarrollo. (Más información)
  2. Importe la biblioteca de programas del SDK a su propio código fuente:

    from konfuzio_sdk.data import Proyecto

  3. El programa debe encontrar el documento PDF que se va a cargar. Puede estar en línea o en el disco duro local. El archivo se abre y los datos binarios se almacenan en caché para su procesamiento en el entorno de destino.
  4. En el siguiente paso, el comando upload_file_konfuzio_api es configurado por Konfuzio con los parámetros necesarios (nombre del archivo, ID del proyecto, estado) y ejecutado.
  5. En cuanto se completa la carga, la plataforma ya ha convertido el PDF en texto mediante OCR. Esto puede leerse fácilmente a través del objeto de proyecto.

El código tiene este aspecto en el resumen:

from konfuzio_sdk.data import Proyecto
project = Proyecto(id_=11957)
from pathlib import Ruta
importar peticiones
filename = Path('energiezertifikat.pdf')
url = 'https://www.energieausweis-online-erstellen.de/app/uploads/2016/09/muster-bedarfsausweis.pdf'
response = requests.get(url)
print(código_estado_respuesta)
response = requests.get(url, stream=True)
if response.status_code == 200:
  with open(nombre_archivo, 'wb') as pdf_object:
    pdf_object.write(respuesta.contenido)
    print(f'{nombre_de_archivo} se ha guardado correctamente')
from konfuzio_sdk.api import upload_file_konfuzio_api
request = upload_file_konfuzio_api(filename, project_id=project.id_, dataset_status=2)
proyecto.get(update=True)
[documento.estado para documento en proyecto.documentos]
proyecto.documentos[-1].texto

El tratamiento de las imágenes es muy similar. Puede encontrar muchos más ejemplos e instrucciones sobre cómo utilizar el Konfuzio Python SDK aquí.

Texto extraído, ¿y ahora qué?

Como muestran los ejemplos, no basta con convertir los documentos. Sólo cuando el texto puede seguir utilizándose ofrece un valor añadido al esfuerzo de conversión. Con Konfuzio, los tipos de datos pueden etiquetarse manualmente (la fecha de la factura o el número de cuenta). Pero éste es sólo el primer paso. Porque en el fondo está la inteligencia artificial que analiza todos los documentos nuevos. Las etiquetas manuales sirven de material de entrenamiento para la IA. Rápidamente toma el relevo y es cada vez más capaz de identificar y clasificar datos dentro de los propios textos. Puede aprender diferentes tipos de documentos. De este modo, incluso grandes cantidades de documentos se analizan rápidamente, los datos se estructuran y la información se prepara para su uso posterior. De este modo, los datos de los archivos PDF pueden integrarse en los siguientes procesos empresariales con una reducción significativa del esfuerzo manual, y procesado automáticamente convertirse.

"
"
Avatar de Daniel Weißmann

Últimos artículos