HTML JPG PDF XML DOCX
  Product Family
PDF

Analisar PDF para extração de tabelas no Python SDK

API para analisar documentos PDF para extrair tabelas usando API Python no servidor.

Get Started

Como analisar documentos PDF para extração de tabelas usando Cloud Python SDK

Para analisar documentos PDF para extrair tabelas via Cloud Python SDK, usaremos Aspose.PDF Cloud Python SDK Este Cloud SDK auxilia programadores Python no desenvolvimento de aplicativos baseados em nuvem para criação, anotação, edição, conversão e análise de PDFs usando a API REST do Aspose.PDF. Basta criar uma conta no Aspose for Cloud e obter as informações do seu aplicativo. Uma vez que você tenha o SID do App e a chave, você está pronto para usar o Aspose.PDF Cloud Python SDK. Se o pacote Python estiver hospedado no Github, você pode instalar diretamente do Github:

Instalação do Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
     
     

Etapas para analisar PDF para extração de tabelas usando Python SDK

Desenvolvedores do Aspose.PDF Cloud podem facilmente analisar documentos PDF para extração de tabelas. Os desenvolvedores precisam apenas de algumas linhas de código.

  1. Crie um novo objeto de Configuração com seu Segredo e Chave de Aplicação
  2. Crie um objeto para conectar à API da Nuvem
  3. Faça o upload do arquivo do seu documento
  4. Analise documentos PDF para extração de tabelas no armazenamento em nuvem usando a função get_document_tables
  5. Verifique a resposta e registre o resultado
  6. Baixe as informações das tabelas em um arquivo JSON localmente, se necessário
 

Este código de exemplo mostra como analisar documento PDF para extração de tabelas


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTables:
    """Class for extracting tables from PDF document page using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def extract(self, documentName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respTables = self.pdf_api.get_document_tables(documentName, **opts)
        if respTables.code != 200:
            logging.error("GetTables(): Unexpected error!")
        else:
            localJsonFile = str(Path.joinpath(localFolder, "tables_objects.json"))
            with open(localJsonFile, "w", encoding="utf-8") as localFile:
                localFile.write("[\n")

                for tab in respTables.tables.list:
                    logging.info(f"GetTabels(): Table '{tab.id}' successfully extracted from the document '{documentName}'.")
                    jsText = json.dumps(tab.__dict__, ensure_ascii=False, default=str, indent=4) + ",\n\n"
                    localFile.write(jsText)
                
                localFile.write("]")
 

Trabalhar com a análise de tabelas em PDF via Python SDK

Ao analisar documentos PDF para extração de tabelas, você pode modificar o conteúdo das tabelas conforme necessário. Isso mantém a posição da tabela nos documentos enquanto economiza tempo e reduz o trabalho manual. Analise documentos PDF para extração de tabelas com Aspose.PDF Cloud Python SDK.

Com nosso SDK Python você pode

  • Adicionar cabeçalho e rodapé de documento PDF em formato de texto ou imagem.
  • Adicionar tabelas e carimbos de texto ou imagem a documentos PDF.
  • Anexar múltiplos documentos PDF a um arquivo existente.
  • Trabalhar com anexos, anotações e campos de formulário de PDF.
  • Aplicar criptografia ou descriptografia a documentos PDF e definir uma senha.
  • Excluir todos os carimbos e tabelas de uma página ou de todo o documento PDF.
  • Excluir um carimbo ou tabela específico do documento PDF pelo seu ID.
  • Substituir uma ou várias instâncias de texto em uma página PDF ou em todo o documento.
  • Suporte extensivo para converter documentos PDF para vários outros formatos de arquivo.
  • Extrair vários elementos de arquivos PDF e otimizar documentos PDF.
  • Você pode experimentar nosso App gratuito para testar a funcionalidade.

  •