Ordenador portátil abierto, el código HTML se puede ver en la pantalla

¿Cómo pasar de PDF a texto paso a paso?

Daniel Weissmann

Durante muchos años, el formato de archivo PDF se ha establecido como el estándar para la distribución digital de documentos. Todos los dispositivos, ya sean PC, smartphones o tabletas, pueden leer PDF. Los telespectadores han sido gratuitos desde el principio. Esto ha contribuido enormemente a su uso generalizado. El formato también se amplía continuamente, por ejemplo para poder rellenar formularios o poner firmas. Sin embargo, los problemas empiezan cuando se quiere procesar la información dentro del documento PDF. Copiar y pegar manualmente rara vez funciona, ya que el texto suele guardarse también como información de la imagen, por no hablar del aspecto temporal. Los proveedores han abordado este problema de diversas maneras para que la conversión de PDF a texto pueda realizarse de forma estructurada, automatizada e inteligente. Nos gustaría examinar más de cerca estos procesos.

Antecedentes de la conversión de texto a PDF

Cuando se habla de conversión de PDF a texto, generalmente se hace referencia al proceso mediante el cual los conversores extraen automáticamente el contenido textual de un documento PDF y lo convierten en un formato de texto editable. Esto puede ser útil si desea seguir procesando el texto de un documento PDF o utilizarlo en otra aplicación. Existen muchas herramientas y servicios que automatizan este proceso y facilitan la conversión de PDF a texto. Algunas de estas herramientas también ofrecen la opción de conservar elementos especiales de diseño o formato, como tablas o párrafos, para garantizar que el texto se reproduzca lo mejor posible en la nueva aplicación. La conversión de PDF a texto también puede ser útil cuando se desea extraer el texto de un documento PDF escaneado en el que la fuente sólo está presente como información de imagen. Para ello se utilizan tecnologías OCR (reconocimiento óptico de caracteres), que interpretan la información de la imagen y generan el texto.

Dependiendo de las capacidades del usuario y de los objetivos de la conversión de un PDF a texto, Konfuzio ofrece varias opciones para extraer el texto (por ejemplo, como archivo TXT o Word). Éstos son de un vistazo:

  1. El proceso manualPara las conversiones ocasionales, los archivos PDF pueden cargarse manualmente en las plataformas de conversión para recibir de vuelta el texto leído en forma de descarga para su posterior procesamiento individual.
  2. A través de la interfaz de programación de aplicaciones (API)Para volúmenes de documentos mayores, se pueden utilizar API flexibles para crear procesos eficaces que permitan automatizar las conversiones de PDF a texto con un poco de programación.
  3. A través de las bibliotecas de programasLa funcionalidad de conversión está disponible a través de las bibliotecas de programas directamente en el código fuente de su propia aplicación. Aquí son muy populares las ofertas para el lenguaje de programación Python.

Variante 1: Instrucciones para el proceso manual

  1. Abre un conversor público de PDF a texto. Suelen permitir conversiones gratuitas.
  2. Siga las instrucciones de la plataforma para cargar su propio archivo PDF desde su ordenador local a la plataforma.
  3. Tras cargar el archivo PDF, la plataforma genera el texto puro, normalmente aún sin estructurar. El texto puede copiarse en un campo de texto del sitio web. O la aplicación ha generado un archivo de texto para descargar.
  4. Copie el texto del archivo generado o de la página web directamente en el TextView de la plataforma Konfuzio.
  5. Sólo tiene que traer las etiquetas aquí (Anotaciones) directamente sobre los datos aún no estructurados para entrenar la inteligencia artificial en la forma específica de los datos.

Anotación manual mediante TextView

Variante 2: Instrucciones para la conversión de PDF a texto mediante API

Esta variante requiere conocimientos de programación. Además, se necesitan ideas claras sobre qué categorías de documentos cabe esperar para que el tratamiento posterior de los textos tras la conversión sea lo más eficiente posible.

  1. El documento se carga en el servidor mediante un comando API. Para ello, se especifican la categoría y el proyecto asociado (Pruébelo aquí)
  2. En cuanto la carga se haya realizado correctamente, el documento aparecerá en la interfaz del administrador de Konfuzio, ya asignado a la categoría correcta.
  3. La información del texto ya ha sido leída en el PDF por Konfuzio y está disponible para el programa (Pruébelo aquí)
  4. El archivo puede abrirse ahora a través de la interfaz del administrador para asignar anotaciones a la información textual con el fin de clasificarla. Con IA entrenada, este paso también se automatiza.

PDF a texto mediante la API Konfuzio

En un vídeo ilustrativo se muestra una completa introducción al trabajo con la API aquí.

Variante 3: Instrucciones para utilizar el SDK de Python

Para los desarrolladores que ya están familiarizados con Python, el uso del Konfuzio Python SDK como biblioteca de código para la integración rápida de las funcionalidades de conversión y procesamiento es particularmente fácil. La integración de las llamadas a la API ya está implementada aquí de forma sencilla. Es muy potente, pero aquí queremos centrarnos en la conversión de PDF a texto.

  1. Si se trata del primer uso de las funcionalidades del SDK, el desarrollador deberá descargarlo e instalarlo primero en su propio entorno de desarrollo. (Más información)
  2. Importe la biblioteca de programas del SDK a su propio código fuente:

    from konfuzio_sdk.data import Proyecto

  3. El programa debe encontrar el documento PDF que se va a cargar. Puede estar en línea o en el disco duro local. El archivo se abre y los datos binarios se almacenan en caché para su procesamiento en el entorno de destino.
  4. En el siguiente paso, el comando upload_file_konfuzio_api es configurado por Konfuzio con los parámetros necesarios (nombre del archivo, ID del proyecto, estado) y ejecutado.
  5. En cuanto se completa la carga, la plataforma ya ha convertido el PDF en texto mediante OCR. Esto puede leerse fácilmente a través del objeto de proyecto.

El código tiene este aspecto en el resumen:

from konfuzio_sdk.data import Proyecto

proyecto = Proyecto(id_=11957)

from pathlib import Ruta
solicitudes de importación
filename = Path('certificadoenergia.pdf')
url = 'https://www.energieausweis-online-erstellen.de/app/uploads/2016/09/muster-bedarfsausweis.pdf'
response = requests.get(url)
print(código_estado_respuesta)
response = requests.get(url, stream=True)
si response.status_code == 200:
  con open(nombre_archivo, 'wb') como pdf_object:
    pdf_object.write(respuesta.contenido)
    print(f'{nombre de fichero} ¡se ha guardado correctamente!')

from konfuzio_sdk.api import upload_file_konfuzio_api

request = upload_file_konfuzio_api(filename, project_id=project.id_, dataset_status=2)

project.get(update=True)
[documento.estado para documento en proyecto.documentos]

proyecto.documentos[-1].texto

El tratamiento de las imágenes es muy similar. Puede encontrar muchos más ejemplos e instrucciones sobre cómo utilizar el Konfuzio Python SDK aquí.

Texto extraído, ¿y ahora qué?

Como muestran los ejemplos, no basta con convertir los documentos. Sólo cuando el texto puede seguir utilizándose ofrece un valor añadido al esfuerzo de conversión. Con Konfuzio, los tipos de datos pueden etiquetarse manualmente (la fecha de la factura o el número de cuenta). Pero éste es sólo el primer paso. Porque en el fondo está la inteligencia artificial que analiza todos los documentos nuevos. Las etiquetas manuales sirven de material de entrenamiento para la IA. Rápidamente toma el relevo y es cada vez más capaz de identificar y clasificar datos dentro de los propios textos. Puede aprender diferentes tipos de documentos. De este modo, incluso grandes cantidades de documentos se analizan rápidamente, los datos se estructuran y la información se prepara para su uso posterior. De este modo, los datos de los archivos PDF pueden integrarse en los siguientes procesos empresariales con una reducción significativa del esfuerzo manual, y procesado automáticamente convertirse.

0 Comentarios

Schreibe einen Kommentar

Más artículos interesantes

PDF Reconocimiento de texto Imagen

Cómo te facilita la vida el reconocimiento de texto en PDF

Lo tienes claro, tienes multitud de archivos almacenados en tu móvil o portátil y estás buscando una...

Leer el artículo
Dos hombres ante el portátil y el iPad desde arriba en la mesa de madera

Alternativa a Abbyy Finereader: Los 5 mejores proveedores de software

¿Buscas una alternativa a Abbyy Finereader? Abbyy Finereader es una solución de software para PDF diseñada para facilitarte...

Leer el artículo
Optimización del proceso digital con Digital Capture

Captura de documentos: gestión digital e innovadora de documentos

La revolución digital ha cambiado radicalmente la forma de trabajar de las empresas. Una de las herramientas más importantes para mejorar los flujos de trabajo y...

Leer el artículo

    Póngase en contacto con nosotros

    Flecha arriba