HTML JPG PDF XML DOCX
  Product Family
PDF

Analizar PDF para extracción de tablas en Python SDK

API para analizar documentos PDF para extraer tablas utilizando la API de Python del lado del servidor.

Get Started

Cómo analizar documentos PDF para extracción de tablas usando Cloud Python SDK

Para analizar documentos PDF y extraer tablas a través de Cloud Python SDK, utilizaremos Aspose.PDF Cloud Python SDK Este Cloud SDK ayuda a los programadores de Python a desarrollar aplicaciones de creación, anotación, edición, conversión y análisis de PDF basadas en la nube utilizando el lenguaje de programación Python a través de la API REST de Aspose.PDF. Simplemente cree una cuenta en Aspose for Cloud y obtenga la información de su aplicación. Una vez que tenga el SID y la clave de la aplicación, estará listo para utilizar Aspose.PDF Cloud Python SDK. Si el paquete de Python está alojado en Github, puede instalarlo directamente desde Github:

Instalación desde Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
     
     

Pasos para analizar PDF para extracción de tablas usando Python SDK

Los desarrolladores de Aspose.PDF Cloud pueden analizar fácilmente documentos PDF para extracción de tablas. Los desarrolladores solo necesitan unas pocas líneas de código.

  1. Cree un nuevo objeto de configuración con su clave y secreto de aplicación
  2. Cree un objeto para conectarse a la API de la nube
  3. Cargue su archivo de documento
  4. Analice documentos PDF para extracción de tablas en almacenamiento en la nube utilizando la función get_document_tables
  5. Verifique la respuesta y registre el resultado
  6. Descargue la información de las tablas en un archivo JSON localmente si es necesario
 

Este código de muestra muestra el análisis de documentos PDF para extracción de tablas


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTables:
    """Class for extracting tables from PDF document page using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def extract(self, documentName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respTables = self.pdf_api.get_document_tables(documentName, **opts)
        if respTables.code != 200:
            logging.error("GetTables(): Unexpected error!")
        else:
            localJsonFile = str(Path.joinpath(localFolder, "tables_objects.json"))
            with open(localJsonFile, "w", encoding="utf-8") as localFile:
                localFile.write("[\n")

                for tab in respTables.tables.list:
                    logging.info(f"GetTabels(): Table '{tab.id}' successfully extracted from the document '{documentName}'.")
                    jsText = json.dumps(tab.__dict__, ensure_ascii=False, default=str, indent=4) + ",\n\n"
                    localFile.write(jsText)
                
                localFile.write("]")
 

Trabajar con el análisis de tablas en PDF a través de Python SDK

Al analizar documentos PDF para extracción de tablas, puede modificar el contenido de las tablas según sea necesario. Esto mantiene la posición de la tabla en los documentos mientras ahorra tiempo y reduce el trabajo manual. Analice documentos PDF para extracción de tablas con Aspose.PDF Cloud Python SDK.

Con nuestro SDK de Python, puede

  • Agregar encabezado y pie de página de documentos PDF en formato de texto o imagen.
  • Agregar tablas y sellos de texto o imagen a documentos PDF.
  • Adjuntar múltiples documentos PDF a un archivo existente.
  • Trabajar con archivos adjuntos PDF, anotaciones y campos de formulario.
  • Aplicar cifrado o descifrado a documentos PDF y establecer una contraseña.
  • Eliminar todos los sellos y tablas de una página o de todo el documento PDF.
  • Eliminar un sello o tabla específico del documento PDF por su ID.
  • Reemplazar una o varias instancias de texto en una página PDF o en todo el documento.
  • Amplio soporte para convertir documentos PDF a varios otros formatos de archivo.
  • Extraer varios elementos de archivos PDF y optimizar documentos PDF.
  • Puede probar nuestra App gratuita para probar la funcionalidad.

  •