Analizar PDF para extraer textos en Python SDK
API para analizar documentos PDF para extraer textos usando API de Python del lado del servidor.
Get StartedCómo analizar documentos PDF para extraer textos usando Cloud Python SDK
Para analizar documentos PDF para extraer textos a través de Cloud Python SDK, usaremos Aspose.PDF Cloud Python SDK Este Cloud SDK ayuda a los programadores de Python a desarrollar aplicaciones de creador, anotador, editor, convertidor y analizador de PDF basadas en la nube utilizando el lenguaje de programación Python a través de Aspose.PDF REST API. Simplemente cree una cuenta en Aspose for Cloud y obtenga la información de su aplicación. Una vez que tenga el App SID y la clave, estará listo para utilizar Aspose.PDF Cloud Python SDK. Si el paquete de Python está alojado en Github, puede instalarlo directamente desde Github:
Instalación desde Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Pasos para analizar PDF para extraer textos usando Python SDK
Los desarrolladores de Aspose.PDF Cloud pueden fácilmente analizar documentos PDF para extraer textos. Los desarrolladores solo necesitan unas pocas líneas de código.
- Cree un nuevo objeto de configuración con su secreto de aplicación y clave
- Cree un objeto para conectarse a la API en la nube
- Suba su archivo de documento
- Analice documentos PDF para extraer textos en el documento PDF en el almacenamiento en la nube usando la función get_document_text_box_fields
- Verifique la respuesta y registre el resultado
- Descargue la información del cuadro de texto en un archivo JSON localmente si es necesario
Este código de muestra muestra el análisis de un documento PDF para extraer textos
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class ParseExtractTextBox:
"""Class for extracting text box from PDF document using Aspose PDF Cloud API."""
def __init__(self):
self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)
def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
"""Upload a PDF document to the Aspose Cloud server."""
if self.pdf_api:
file_path = localFolder / documentName
try:
if remoteFolder == None:
self.pdf_api.upload_file(documentName, str(file_path))
else:
opts = { "folder": remoteFolder }
self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
logging.info(f"File {documentName} uploaded successfully.")
except Exception as e:
logging.error(f"Failed to upload file: {e}")
def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
self.upload_document(documentName, remoteFolder)
opts = {
"folder": remoteFolder
}
respTextBoxes = self.pdf_api.get_document_text_box_fields(documentName, **opts)
if respTextBoxes.code != 200:
logging.error("GetTextBoxes(): Unexpected error!")
else:
localJson = Path.joinpath(localFolder, "text_box_objects.json")
with open(str(localJson), "w", encoding="utf-8") as localFile:
localFile.write("[\n")
for textBox in respTextBoxes.fields.list:
x = self.helper.pdf_api.get_text_box_field(documentName, )
logging.info(f"GetTextBoxes(): TextBox field '{textBox.full_name}' successfully extracted from the document '{documentName}'.")
jsText = json.dumps(textBox.__dict__, ensure_ascii=False, default=str, indent=4) +",\n\n"
localFile.write(jsText)
localFile.write("]")
Trabajar con el análisis de texto en PDF a través de Python SDK
Al analizar documentos PDF para extraer textos, puede modificar el contenido de los campos de TextBox según sea necesario. Esto mantiene la posición del texto en los documentos mientras ahorra tiempo y reduce el trabajo manual. Analice documentos PDF para extraer textos con Aspose.PDF Cloud Python SDK.
Con nuestro SDK de Python puede
- Agregar cabecera y pie de página del documento PDF en formato de texto o imagen.
- Agregar tablas y sellos de texto o imagen a documentos PDF.
- Anexar múltiples documentos PDF a un archivo existente.
- Trabajar con adjuntos, anotaciones y campos de formulario de PDF.
- Aplicar cifrado o descifrado a documentos PDF y establecer una contraseña.
- Eliminar todos los sellos y tablas de una página o de todo el documento PDF.
- Eliminar un sello o tabla específica del documento PDF por su ID.
- Reemplazar instancias únicas o múltiples de texto en una página PDF o de todo el documento.
- Soporte extenso para convertir documentos PDF a varios otros formatos de archivo.
- Extraer varios elementos de archivos PDF y optimizar documentos PDF.
- Puede probar nuestra aplicación gratuita para probar la funcionalidad.
- Recursos de Aprendizaje
- Documentación
- Código Fuente
- Referencias de API
- Soporte de Producto
- Soporte Gratuito
- Soporte Pago
- Blog
- ¿Por qué Aspose.PDF Cloud para Python?
- Lista de Clientes
- Seguridad