HTML JPG PDF XML DOCX
  Product Family
PDF

Analyser un PDF pour l’extraction de tableaux dans Python SDK

API pour analyser des documents PDF afin d’extraire des tableaux en utilisant l’API Python côté serveur.

Get Started

Comment analyser des documents PDF pour l'extraction de tableaux en utilisant Cloud Python SDK

Pour analyser des documents PDF pour extraire des tableaux via Cloud Python SDK, nous utiliserons Aspose.PDF Cloud Python SDK Ce SDK Cloud aide les programmeurs Python à développer des applications de créateur, annotateur, éditeur, convertisseur et analyseur de PDF basées sur le cloud en utilisant le langage de programmation Python via Aspose.PDF REST API. Créez simplement un compte sur Aspose for Cloud et obtenez les informations de votre application. Une fois que vous avez l’App SID et la clé, vous êtes prêt à utiliser Aspose.PDF Cloud Python SDK. Si le paquet Python est hébergé sur Github, vous pouvez l’installer directement depuis Github :

Installation depuis Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
     
     

Étapes pour analyser un PDF pour l'extraction de tableaux en utilisant Python SDK

Les développeurs Aspose.PDF Cloud peuvent facilement analyser des documents PDF pour l’extraction de tableaux. Les développeurs n’ont besoin que de quelques lignes de code.

  1. Créez un nouvel objet Configuration avec votre Secret et Clé d’application
  2. Créez un objet pour se connecter à l’API Cloud
  3. Téléchargez votre fichier de document
  4. Analysez les documents PDF pour l’extraction de tableaux dans le stockage cloud en utilisant la fonction get_document_tables
  5. Vérifiez la réponse et enregistrez le résultat
  6. Téléchargez les informations des tableaux dans un fichier JSON localement si nécessaire
 

Cet exemple de code montre l'analyse de document PDF pour l'extraction de tableaux


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTables:
    """Class for extracting tables from PDF document page using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def extract(self, documentName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respTables = self.pdf_api.get_document_tables(documentName, **opts)
        if respTables.code != 200:
            logging.error("GetTables(): Unexpected error!")
        else:
            localJsonFile = str(Path.joinpath(localFolder, "tables_objects.json"))
            with open(localJsonFile, "w", encoding="utf-8") as localFile:
                localFile.write("[\n")

                for tab in respTables.tables.list:
                    logging.info(f"GetTabels(): Table '{tab.id}' successfully extracted from the document '{documentName}'.")
                    jsText = json.dumps(tab.__dict__, ensure_ascii=False, default=str, indent=4) + ",\n\n"
                    localFile.write(jsText)
                
                localFile.write("]")
 

Travailler avec l'analyse des tableaux dans PDF via Python SDK

En analysant des documents PDF pour l’extraction de tableaux, vous pouvez modifier le contenu des tableaux si nécessaire. Cela maintient la position du tableau dans les documents tout en économisant du temps et en réduisant le travail manuel. Analysez des documents PDF pour extraire des tableaux avec Aspose.PDF Cloud Python SDK.

Avec notre SDK Python vous pouvez

  • Ajouter l’en-tête et le pied de page du document PDF au format texte ou image.
  • Ajouter des tableaux et des tampons de texte ou d’image aux documents PDF.
  • Joindre plusieurs documents PDF à un fichier existant.
  • Travailler avec les pièces jointes PDF, annotations et champs de formulaire.
  • Appliquer le chiffrement ou le déchiffrement aux documents PDF et définir un mot de passe.
  • Supprimer tous les tampons et tableaux d’une page ou de l’ensemble du document PDF.
  • Supprimer un tampon ou un tableau spécifique du document PDF par son ID.
  • Remplacer une ou plusieurs occurrences de texte sur une page PDF ou dans l’ensemble du document.
  • Support étendu pour convertir des documents PDF en divers autres formats de fichiers.
  • Extraire divers éléments des fichiers PDF et optimiser les documents PDF.
  • Vous pouvez essayer notre application gratuite pour tester la fonctionnalité.

  •