HTML JPG PDF XML DOCX
  Product Family
PDF

Python SDKで画像を抽出するためのPDF解析

サーバーサイドPython APIを使用して画像を抽出するためのPDFドキュメントを解析するAPI。

Get Started

Cloud Python SDKを使用して画像を抽出するためのPDFドキュメントを解析する方法

Cloud Python SDKを介して画像を抽出するためにPDFドキュメントを解析するには、 Aspose.PDF Cloud Python SDK このCloud SDKは、PythonプログラマーがAspose.PDF REST APIを介してクラウドベースのPDF作成、注釈付け、編集、変換、および解析アプリをPythonプログラミング言語で開発するのを支援します。 Aspose for Cloudでアカウントを作成し、アプリケーション情報を取得するだけです。 App SIDとキーを取得したら、Aspose.PDF Cloud Python SDKを試す準備が整います。 PythonパッケージがGithubにホストされている場合は、直接Githubからインストールできます:

Githubからのインストール


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
     
     

Python SDKを使用して画像を抽出するためのPDF解析手順

Aspose.PDF Cloudの開発者は、簡単にPDFドキュメントを解析して画像を抽出できます。 開発者は数行のコードだけで済みます。

  1. アプリケーションシークレットとキーを使用して新しいConfigurationオブジェクトを作成
  2. クラウドAPIに接続するオブジェクトを作成
  3. ドキュメントファイルをアップロード
  4. get_imagesとget_image_extract_as_png関数を使用して、クラウドストレージ内のPDFドキュメントを解析して画像を抽出
  5. レスポンスをチェックし、結果をログに記録
  6. 必要に応じて、PNGファイルとして画像をローカルにダウンロード
 

このサンプルコードは、PDFドキュメントを解析して画像を抽出する方法を示しています


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractImages:
    """Class for extracting images from PDF document page using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

    def extract(self, documentName: str, pageNumber: int, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respImages = self.pdf_api.get_images(documentName, pageNumber, **opts)
        if respImages.code != 200:
            logging.error("ParseExtractImages(): Unexpected error!")
        else:
            for img in respImages.images.list:
                response = self.pdf_api.get_image_extract_as_png(documentName, img.id, **opts)

                logging.info(f"ParseExtractImages(): Image '{img.id}' successfully extracted from the document '{documentName}'.")
                local_path = localFolder / ( img.id + '.png' )
                shutil.move(response, str(local_path))
 

Python SDKを介してPDFで画像解析を行う

PDFドキュメントを解析して画像を抽出することで、各画像の有効性と関連性を体系的に検証し、すべての参照が最新かつ機能していることを確認できます。 リンクされた画像をダウンロードしたり、バッチ分析を実施したりするようなタスクにおいては、画像の抽出が自動化を可能にし、時間を節約し手動の手間を減らします。 Aspose.PDF Cloud Python SDKを使用して、画像を抽出するためにPDFドキュメントを解析します。

Python SDKでできること

  • PDFドキュメントのヘッダーとフッターをテキストまたは画像形式で追加。
  • PDFドキュメントにテーブルとテキストまたは画像のスタンプを追加。
  • 複数のPDFドキュメントを既存のファイルに追加。
  • PDF添付ファイル、注釈、フォームフィールドを操作。
  • PDFドキュメントに暗号化または復号化を適用し、パスワードを設定。
  • ページまたはPDFドキュメント全体からすべてのスタンプとテーブルを削除。
  • PDFドキュメントからIDで特定のスタンプまたはテーブルを削除。
  • PDFページまたはドキュメント全体からのテキストの単一または複数のインスタンスを置換。
  • PDFドキュメントをさまざまな他のファイル形式に変換するための広範なサポート。
  • PDFファイルのさまざまな要素を抽出し、PDFドキュメントを最適化。
  • 機能をテストするために、無料アプリをお試しください。

  •