HTML JPG PDF XML DOCX
  Product Family
PDF

Python SDKでID抽出によるテーブルのPDFを解析

サーバーサイドのPython APIを使用してIDでテーブルを抽出するためにPDFドキュメントを解析するAPI。

Get Started

Cloud Python SDKを使用してID抽出によるテーブルのPDFドキュメントを解析する方法

Cloud Python SDKを介してID抽出によるテーブルを抽出するためにPDFドキュメントを解析するには、 Aspose.PDF Cloud Python SDK このCloud SDKは、PythonプログラマがAspose.PDF REST APIを介してPythonプログラミング言語を使用してクラウドベースのPDF作成、注釈付け、編集、変換、および解析アプリを開発するのを支援します。Aspose for Cloudでアカウントを作成し、アプリケーション情報を取得してください。App SIDとキーを取得したら、Aspose.PDF Cloud Python SDKを試す準備が整います。PythonパッケージがGithubにホストされている場合は、Githubから直接インストールできます:

Githubからのインストール


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git

     
     

Python SDKを使用してID抽出によるテーブルのPDFを解析する手順

Aspose.PDF Cloudの開発者は、ID抽出によるテーブルのPDFドキュメントを簡単に解析できます。開発者は数行のコードだけで済みます。

  1. アプリケーションシークレットとキーを使用して新しいConfigurationオブジェクトを作成
  2. Cloud APIに接続するためのオブジェクトを作成
  3. ドキュメントファイルをアップロード
  4. get_table関数を使用してクラウドストレージでID抽出によるテーブルのPDFドキュメントを解析
  5. 応答をチェックし、結果をログに記録
  6. 必要に応じてJSONファイルとしてローカルにテーブル情報をダウンロード
 

このサンプルコードは、ID抽出によるテーブルのPDFドキュメントを解析する方法を示しています


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTable:
    """Class for extracting table from PDF document page using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def extract(self, documentName: str, tableId: str, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        
        response  = self.pdf_api.get_table(documentName, tableId, **opts)
        if response.code != 200:
            logging.error("ParseExtractTextBox(): Unexpected error!")
        else:
            logging.info(f"ParseExtractTable(): Table '{tableId}' successfully extracted from the document '{documentName}'.")
            localJsonFile = str(Path.joinpath(localFolder, "tables_objects.json"))
            with open(localJsonFile, "w", encoding="utf-8") as localFile:            
               jsText = json.dumps(response.table.__dict__, ensure_ascii=False, default=str, indent=4)
               localFile.write(jsText)
 

Python SDKを介してPDFでIDによるテーブルの解析を行う

ID抽出によるテーブルのPDFドキュメントを解析することにより、必要に応じてテーブルのコンテンツを変更できます。これは、ドキュメント内のテーブルの位置を維持しながら、時間を節約し、手作業を減らします。 Aspose.PDF Cloud Python SDKでID抽出によるテーブルをPDFドキュメントから抽出します。

Python SDKでできること

  • PDFドキュメントのヘッダーとフッターをテキストまたは画像形式で追加します。
  • テーブルやテキストまたは画像スタンプをPDFドキュメントに追加します。
  • 複数のPDFドキュメントを既存のファイルに追加します。
  • PDFの添付ファイル、注釈、およびフォームフィールドを操作します。
  • PDFドキュメントに暗号化または復号化を適用し、パスワードを設定します。
  • ページまたはPDFドキュメント全体からすべてのスタンプとテーブルを削除します。
  • PDFドキュメントからIDによって特定のスタンプやテーブルを削除します。
  • PDFページまたはドキュメント全体からテキストの単一または複数のインスタンスを置換します。
  • PDFドキュメントをさまざまな他のファイル形式に変換するための広範なサポート。
  • PDFファイルのさまざまな要素を抽出し、PDFドキュメントを最適化します。
  • 機能をテストするために無料アプリを試すことができます。

  •