HTML JPG PDF XML DOCX
  Product Family
PDF

Cloud Python SDKを使用してPDFを解析し、フォームフィールドをXMLとして抽出

サーバーサイドPython APIを使用して、PDFドキュメントを解析し、フォームフィールドをXMLとして抽出するためのAPI。

Get Started

Cloud Python SDKを使用してPDFドキュメントを解析し、フォームフィールドをXMLとして抽出する方法

Cloud Python SDKを使用してPDFドキュメントを解析し、フォームフィールドをXMLとして抽出するには、 Aspose.PDF Cloud Python SDK このCloud SDKは、PythonプログラマーがAspose.PDF REST APIを介して、クラウドベースのPDFクリエーター、注釈付け、エディター、コンバーター、パーサーアプリをPythonプログラミング言語で開発するのを支援します。Aspose for Cloudでアカウントを作成し、アプリケーション情報を取得します。App SIDとキーを取得すれば、Aspose.PDF Cloud Python SDKを使用する準備が整います。PythonパッケージがGithubにホストされている場合、直接Githubからインストールできます:

Githubからのインストール


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git

パッケージマネージャーコンソールコマンド

     
    pip install asposepdfcloud

Python SDKを使用してPDFを解析し、フォームフィールドをXMLとして抽出する手順

Aspose.PDF Cloud開発者は、簡単にPDFドキュメントを解析し、フォームフィールドをXMLとして抽出できます。開発者は数行のコードだけで済みます。

  1. アプリケーションシークレットとキーを使用して新しいConfigurationオブジェクトを作成
  2. クラウドAPIに接続するためのオブジェクトを作成
  3. ドキュメントファイルをアップロード
  4. put_export_fields_from_pdf_to_xml_in_storage関数を使用して、クラウドストレージでPDFドキュメントを解析し、フォームフィールドをXMLとして抽出
  5. レスポンスを確認し、結果をログに記録
  6. 必要に応じてXMLファイルをローカルにダウンロード
 

このサンプルコードは、PDFドキュメントを解析してフォームフィールドをXMLとして抽出する方法を示しています


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ExportFormToXML:
    """Class for extracting PDF form fields into XML using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def uploadDocument(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

    def downloadFile(self, document: str, outputDocument: str, localFolder: Path, remoteFolder: str,  output_prefix: str):
        """Download the processed PDF document from the Aspose Cloud server."""
        if self.pdf_api:
            try:
                temp_file = self.pdf_api.download_file(remoteFolder + '/' + document)
                local_path = localFolder / ( output_prefix + outputDocument )
                shutil.move(temp_file, str(local_path))
                logging.info(f"download_result(): File successfully downloaded: {local_path}")
            except Exception as e:
                logging.error(f"download_result(): Failed to download file: {e}")


    def Extract(self, documentName: str, outputXMLName: str, localFolder: Path, remoteFolder: str ):
        self.uploadDocument(documentName, remoteFolder)

        XMLPath = str(Path.joinpath(Path(remoteFolder), outputXMLName))
        opts = {
            "folder": remoteFolder
        }
        response = self.pdf_put_export_fields_from_pdf_to_xml_in_storage(documentName, XMLPath, **opts)
        if response.code != 200:
            logging.error("ExportFormToXML(): Unexpected error!")
        else:
            logging.info(f"ExportFormToXML(): Pdf document '{documentName}' form fields successfully exported to '{outputXMLName}' file.")
            self.downloadFile(outputXMLName, outputXMLName, localFolder, remoteFolder, "")
 

Python SDKを介してPDFでフォーム解析を行う

PDFドキュメントを解析してフォームフィールドをXMLとして抽出することで、各フォームフィールドの有効性と関連性を体系的に検証し、すべての参照が現在で機能していることを確認できます。フォームフィールドをXMLとしてダウンロードしたり、バッチ分析を実施したりするタスクにおいて、フォームフィールドの抽出は自動化を可能にし、時間を節約し手作業を減らします。 Aspose.PDF Cloud Python SDKを使用して、PDFドキュメントを解析してフォームフィールドをXMLとして抽出します。

Python SDKでできること

  • PDFドキュメントにテキストまたは画像形式でヘッダーとフッターを追加。
  • PDFドキュメントにテーブルやテキストまたは画像スタンプを追加。
  • 複数のPDFドキュメントを既存のファイルに追加。
  • PDF添付ファイル、注釈、およびフォームフィールドを操作。
  • PDFドキュメントに暗号化または復号化を適用し、パスワードを設定。
  • ページまたはPDFドキュメント全体からすべてのスタンプとテーブルを削除。
  • PDFドキュメントからIDで特定のスタンプまたはテーブルを削除。
  • PDFページまたはドキュメント全体からテキストの単一または複数のインスタンスを置換。
  • PDFドキュメントをさまざまな他のファイル形式に変換するための広範なサポート。
  • PDFファイルのさまざまな要素を抽出し、PDFドキュメントを最適化。
  • 無料アプリを試して機能をテストできます。

  •