Analisar PDF para extração de Textos no Python SDK

API para analisar documentos PDF para extrair textos usando API Python no servidor.

Get Started

NET PHP GO NODEJS

Como analisar documentos PDF para extração de Textos usando Cloud Python SDK

Para analisar documentos PDF para extração de Textos via Cloud Python SDK, usaremos Aspose.PDF Cloud Python SDK Este Cloud SDK auxilia programadores Python no desenvolvimento de aplicativos baseados em nuvem para criação, anotação, edição, conversão e análise de PDF usando a linguagem de programação Python via Aspose.PDF REST API. Basta criar uma conta em Aspose for Cloud e obter as informações do seu aplicativo. Depois de ter o App SID e a chave, você está pronto para usar o Aspose.PDF Cloud Python SDK. Se o pacote Python estiver hospedado no Github, você pode instalar diretamente do Github:

Instalação do Github
     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git

Etapas para analisar PDF para extração de Textos usando Python SDK

Os desenvolvedores do Aspose.PDF Cloud podem facilmente analisar documentos PDF para extração de Textos. Os desenvolvedores precisam de apenas algumas linhas de código.

Crie um novo objeto de Configuração com seu Segredo e Chave do Aplicativo
Crie um objeto para conectar à API Cloud
Carregue seu arquivo de documento
Analise documentos PDF para extração de Textos no documento PDF em armazenamento na nuvem usando a função get_document_text_box_fields
Verifique a resposta e registre o resultado
Baixe informações da caixa de texto em arquivo JSON localmente, se necessário

Este código de exemplo mostra a análise de documento PDF para extração de Textos
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTextBox:
    """Class for extracting text box from PDF document using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respTextBoxes = self.pdf_api.get_document_text_box_fields(documentName, **opts)
        if respTextBoxes.code != 200:
            logging.error("GetTextBoxes(): Unexpected error!")
        else:
            localJson = Path.joinpath(localFolder, "text_box_objects.json")
            with open(str(localJson), "w", encoding="utf-8") as localFile:
                localFile.write("[\n")
                for textBox in respTextBoxes.fields.list:
                    x = self.helper.pdf_api.get_text_box_field(documentName, )
                    logging.info(f"GetTextBoxes(): TextBox field '{textBox.full_name}' successfully extracted from the document '{documentName}'.")
                    jsText = json.dumps(textBox.__dict__, ensure_ascii=False, default=str, indent=4) +",\n\n"
                    localFile.write(jsText)
                localFile.write("]")

Trabalhar com a análise de Texto em PDF via Python SDK

Ao analisar documentos PDF para extração de textos, você pode modificar o conteúdo dos campos TextBox conforme necessário. Isso mantém a posição do texto nos documentos enquanto economiza tempo e reduz o trabalho manual. Analise documentos PDF para extração de textos com Aspose.PDF Cloud Python SDK.

Com nosso SDK para Python você pode

Adicionar cabeçalho e rodapé do documento PDF em formato de texto ou imagem.
Adicionar tabelas e carimbos de texto ou imagem a documentos PDF.
Anexar vários documentos PDF a um arquivo existente.
Trabalhar com anexos, anotações e campos de formulário em PDF.
Aplicar criptografia ou descriptografia a documentos PDF e definir uma senha.
Excluir todos os carimbos e tabelas de uma página ou de todo o documento PDF.
Excluir um carimbo ou tabela específica do documento PDF pelo seu ID.
Substituir uma ou várias instâncias de texto em uma página PDF ou em todo o documento.
Suporte extensivo para converter documentos PDF em vários outros formatos de arquivo.
Extrair vários elementos de arquivos PDF e otimizar documentos PDF.
Você pode experimentar nosso App gratuito para testar a funcionalidade.

Por que Aspose.PDF Cloud para Python?
Lista de Clientes
Segurança

Analisar PDF para extração de Textos no Python SDK

API para analisar documentos PDF para extrair textos usando API Python no servidor.

Aspose.PDF Cloud SDK para Python

Overview

Como analisar documentos PDF para extração de Textos usando Cloud Python SDK

Instalação do Github

Etapas para analisar PDF para extração de Textos usando Python SDK

Este código de exemplo mostra a análise de documento PDF para extração de Textos

Trabalhar com a análise de Texto em PDF via Python SDK