HTML JPG PDF XML DOCX
  Product Family
PDF

Python SDKでのテーブル抽出のためのPDF解析

サーバーサイドPython APIを使用してテーブルを抽出するためのPDFドキュメントを解析するAPI。

Get Started

Cloud Python SDKを使用したPDFドキュメントのテーブル抽出方法

Cloud Python SDKを使用してテーブルを抽出するためにPDFドキュメントを解析するには、 Aspose.PDF Cloud Python SDK このCloud SDKは、PythonプログラマーがAspose.PDF REST APIを介してクラウドベースのPDFクリエーター、アノテーター、エディター、コンバーター、パーサーアプリを開発するのを支援します。Aspose for Cloudでアカウントを作成し、アプリケーション情報を取得してください。App SIDとキーを入手したら、Aspose.PDF Cloud Python SDKを利用する準備が整います。PythonパッケージがGithubにホスティングされている場合、直接Githubからインストールできます。

Githubからのインストール


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
     
     

Python SDKを使用したPDFのテーブル抽出の手順

Aspose.PDF Cloudの開発者は、簡単にPDFドキュメントを解析してテーブルを抽出できます。開発者はわずか数行のコードが必要です。

  1. アプリケーションシークレットとキーを使用して新しいConfigurationオブジェクトを作成します
  2. クラウドAPIに接続するオブジェクトを作成します
  3. ドキュメントファイルをアップロードします
  4. get_document_tables関数を使用してクラウドストレージ内のPDFドキュメントを解析してテーブルを抽出します
  5. レスポンスを確認し、結果をログに記録します
  6. 必要に応じて、テーブル情報をJSONファイルとしてローカルにダウンロードします
 

このサンプルコードは、テーブル抽出のためのPDFドキュメントを解析する方法を示しています


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTables:
    """Class for extracting tables from PDF document page using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def extract(self, documentName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respTables = self.pdf_api.get_document_tables(documentName, **opts)
        if respTables.code != 200:
            logging.error("GetTables(): Unexpected error!")
        else:
            localJsonFile = str(Path.joinpath(localFolder, "tables_objects.json"))
            with open(localJsonFile, "w", encoding="utf-8") as localFile:
                localFile.write("[\n")

                for tab in respTables.tables.list:
                    logging.info(f"GetTabels(): Table '{tab.id}' successfully extracted from the document '{documentName}'.")
                    jsText = json.dumps(tab.__dict__, ensure_ascii=False, default=str, indent=4) + ",\n\n"
                    localFile.write(jsText)
                
                localFile.write("]")
 

Python SDKを介したPDFでのテーブル解析の作業

PDFドキュメントを解析してテーブルを抽出することで、テーブルの内容を必要に応じて変更できます。これにより、テーブルの位置をドキュメント内で維持し、時間を節約し、手作業を減らすことができます。 Aspose.PDF Cloud Python SDKでテーブルを抽出するためにPDFドキュメントを解析します。

Python SDKを使用してできること

  • PDFドキュメントにテキストまたは画像形式のヘッダーとフッターを追加します。
  • PDFドキュメントにテーブルおよびテキストまたは画像スタンプを追加します。
  • 複数のPDFドキュメントを既存のファイルに追加します。
  • PDF添付ファイル、アノテーション、およびフォームフィールドを操作します。
  • PDFドキュメントに暗号化または復号化を適用し、パスワードを設定します。
  • ページまたはPDFドキュメント全体からすべてのスタンプとテーブルを削除します。
  • PDFドキュメントからIDで特定のスタンプまたはテーブルを削除します。
  • PDFページまたはドキュメント全体からのテキストの単一または複数のインスタンスを置換します。
  • PDFドキュメントをさまざまな他のファイル形式に変換するための広範なサポート。
  • PDFファイルのさまざまな要素を抽出し、PDFドキュメントを最適化します。
  • 機能を試すために無料アプリを試すことができます。

  •