HTML JPG PDF XML DOCX
  Product Family
PDF

Cloud Python SDKを使用してPDFを解析しテキストを抽出する

サーバーサイドPython APIを使用してPDFドキュメントを解析し、テキストを抽出するためのAPI。

Get Started

Cloud Python SDKを使用してPDFドキュメントを解析しテキストを抽出する方法

Cloud Python SDKを使用してPDFドキュメントを解析しテキストを抽出するには、 Aspose.PDF Cloud Python SDK このCloud SDKは、PythonプログラマーがAspose.PDF REST APIを介してクラウドベースのPDF作成、注釈付け、編集、変換、解析アプリをPythonプログラミング言語で開発するのを支援します。Aspose for Cloudでアカウントを作成し、アプリケーション情報を取得します。App SID & keyを取得したら、Aspose.PDF Cloud Python SDKを使用する準備が整います。PythonパッケージがGithubにホストされている場合は、直接Githubからインストールできます。

Githubからのインストール


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
     
     

Python SDKを使用してPDFを解析しテキストを抽出する手順

Aspose.PDF Cloud開発者は、PDFドキュメントを簡単に解析してテキストを抽出できます。開発者はほんの数行のコードが必要です。

  1. アプリケーションシークレットとキーを使用して新しいConfigurationオブジェクトを作成
  2. クラウドAPIに接続するオブジェクトを作成
  3. ドキュメントファイルをアップロード
  4. get_document_text_box_fields関数を使用してクラウドストレージ上のPDFドキュメントでPDFドキュメントを解析しテキストを抽出
  5. 応答を確認し、結果をログに記録
  6. 必要に応じてJSONファイルにテキストボックス情報をローカルにダウンロード
 

このサンプルコードはPDFドキュメントを解析しテキストを抽出することを示しています


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTextBox:
    """Class for extracting text box from PDF document using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respTextBoxes = self.pdf_api.get_document_text_box_fields(documentName, **opts)
        if respTextBoxes.code != 200:
            logging.error("GetTextBoxes(): Unexpected error!")
        else:
            localJson = Path.joinpath(localFolder, "text_box_objects.json")
            with open(str(localJson), "w", encoding="utf-8") as localFile:
                localFile.write("[\n")
                for textBox in respTextBoxes.fields.list:
                    x = self.helper.pdf_api.get_text_box_field(documentName, )
                    logging.info(f"GetTextBoxes(): TextBox field '{textBox.full_name}' successfully extracted from the document '{documentName}'.")
                    jsText = json.dumps(textBox.__dict__, ensure_ascii=False, default=str, indent=4) +",\n\n"
                    localFile.write(jsText)
                localFile.write("]")
 

Python SDKを介してPDFでのテキスト解析を行う

PDFドキュメントを解析してテキストを抽出することで、必要に応じてテキストボックスフィールドの内容を変更できます。これにより、ドキュメント内のテキストの位置を維持しながら、時間を節約し手作業を削減できます。 Aspose.PDF Cloud Python SDKを使用してPDFドキュメントを解析しテキストを抽出します。

Python SDKでできること

  • テキストまたは画像形式でPDFドキュメントのヘッダーとフッターを追加。
  • PDFドキュメントにテーブルとテキストまたは画像スタンプを追加。
  • 複数のPDFドキュメントを既存のファイルに追加。
  • PDFの添付ファイル、注釈、およびフォームフィールドを操作。
  • PDFドキュメントに暗号化または復号化を適用し、パスワードを設定。
  • ページまたはPDFドキュメント全体からすべてのスタンプとテーブルを削除。
  • IDで特定のスタンプまたはテーブルをPDFドキュメントから削除。
  • PDFページまたはドキュメント全体からのテキストの単一または複数のインスタンスを置換。
  • PDFドキュメントをさまざまな他のファイル形式に変換するための広範なサポート。
  • PDFファイルのさまざまな要素を抽出し、PDFドキュメントを最適化。
  • 機能をテストするための無料アプリをお試しください。

  •