Analyser les PDF pour extraire des textes dans Python SDK
API pour analyser des documents PDF afin d’extraire des textes à l’aide de l’API Python côté serveur.
Get StartedComment analyser des documents PDF pour extraire des textes à l'aide du Cloud Python SDK
Pour analyser des documents PDF pour extraire des textes via le Cloud Python SDK, nous utiliserons Aspose.PDF Cloud Python SDK Ce SDK Cloud aide les programmeurs Python à développer des applications de création, d’annotation, d’édition, de conversion et d’analyse de PDF basées sur le cloud en utilisant le langage de programmation Python via l’API REST Aspose.PDF. Créez simplement un compte sur Aspose for Cloud et obtenez les informations de votre application. Une fois que vous avez l’App SID et la clé, vous êtes prêt à utiliser le Aspose.PDF Cloud Python SDK. Si le package Python est hébergé sur Github, vous pouvez l’installer directement depuis Github :
Installation depuis Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Étapes pour analyser des PDF pour extraire des textes à l'aide du Python SDK
Les développeurs Aspose.PDF Cloud peuvent facilement analyser des documents PDF pour extraire des textes. Les développeurs n’ont besoin que de quelques lignes de code.
- Créez un nouvel objet Configuration avec votre Secret et Clé d’Application
- Créez un objet pour se connecter à l’API Cloud
- Téléchargez votre fichier document
- Analysez les documents PDF pour extraire des textes dans le document PDF sur le stockage cloud en utilisant la fonction get_document_text_box_fields
- Vérifiez la réponse et enregistrez le résultat
- Téléchargez les informations de la boîte de texte dans un fichier JSON localement si nécessaire
Cet exemple de code montre l'analyse d'un document PDF pour extraire des textes
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class ParseExtractTextBox:
"""Class for extracting text box from PDF document using Aspose PDF Cloud API."""
def __init__(self):
self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)
def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
"""Upload a PDF document to the Aspose Cloud server."""
if self.pdf_api:
file_path = localFolder / documentName
try:
if remoteFolder == None:
self.pdf_api.upload_file(documentName, str(file_path))
else:
opts = { "folder": remoteFolder }
self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
logging.info(f"File {documentName} uploaded successfully.")
except Exception as e:
logging.error(f"Failed to upload file: {e}")
def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
self.upload_document(documentName, remoteFolder)
opts = {
"folder": remoteFolder
}
respTextBoxes = self.pdf_api.get_document_text_box_fields(documentName, **opts)
if respTextBoxes.code != 200:
logging.error("GetTextBoxes(): Unexpected error!")
else:
localJson = Path.joinpath(localFolder, "text_box_objects.json")
with open(str(localJson), "w", encoding="utf-8") as localFile:
localFile.write("[\n")
for textBox in respTextBoxes.fields.list:
x = self.helper.pdf_api.get_text_box_field(documentName, )
logging.info(f"GetTextBoxes(): TextBox field '{textBox.full_name}' successfully extracted from the document '{documentName}'.")
jsText = json.dumps(textBox.__dict__, ensure_ascii=False, default=str, indent=4) +",\n\n"
localFile.write(jsText)
localFile.write("]")
Travailler avec l'analyse de texte dans les PDF via le Python SDK
En analysant des documents PDF pour extraire des textes, vous pouvez modifier le contenu des champs TextBox selon vos besoins. Cela maintient la position du texte dans les documents tout en économisant du temps et en réduisant le travail manuel. Analysez des documents PDF pour extraire des textes avec Aspose.PDF Cloud Python SDK.
Avec notre SDK Python, vous pouvez
- Ajouter un en-tête et un pied de page au document PDF au format texte ou image.
- Ajouter des tableaux et des tampons texte ou image aux documents PDF.
- Ajouter plusieurs documents PDF à un fichier existant.
- Travailler avec les pièces jointes, annotations et champs de formulaire des PDF.
- Appliquer le cryptage ou le décryptage aux documents PDF et définir un mot de passe.
- Supprimer tous les tampons et tableaux d’une page ou d’un document PDF entier.
- Supprimer un tampon ou un tableau spécifique du document PDF par son ID.
- Remplacer une ou plusieurs instances de texte sur une page PDF ou dans l’ensemble du document.
- Support étendu pour la conversion de documents PDF en divers autres formats de fichiers.
- Extraire divers éléments des fichiers PDF et optimiser les documents PDF.
- Vous pouvez essayer notre application gratuite pour tester la fonctionnalité.
- Ressources d'apprentissage
- Documentation
- Code Source
- Références API
- Support Produit
- Support Gratuit
- Support Payant
- Blog
- Pourquoi Aspose.PDF Cloud pour Python ?
- Liste des Clients
- Sécurité