PNG JPG BMP TIFF PDF
Aspose.PDF  for Python

Python SDK で PDF からリンクを抽出

Cloud Python SDK を使用して PDF ドキュメントへのリンクを抽出する。

Get Started

Cloud Python SDK を使用して PDF からリンクを抽出する方法

PDF からリンクを取得するには、 Aspose.PDF Cloud Python SDK を使用します。この Cloud SDK は、Aspose.PDF REST API を介して Python プログラミング言語を使用してクラウドベースの PDF 作成、注釈、編集、および変換アプリを開発するために Python プログラマーを支援します。Aspose for Cloud でアカウントを作成し、アプリケーション情報を取得するだけです。App SID とキーを取得したら、Aspose.PDF Cloud Python SDK を使用する準備が整います。Python パッケージが Github にホストされている場合は、Github から直接インストールできます:

Github からのインストール


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git

パッケージ マネージャー コンソール コマンド

     
    pip install asposepdfcloud

Python を介して PDF からリンクを抽出する手順

Aspose.PDF Cloud 開発者は、ほんの数行のコードで PDF からリンクを簡単に読み込み、取得できます。

  1. Python SDK をインストール
  2. Aspose Cloud サーバーに PDF ドキュメントをアップロード
  3. Aspose Cloud サーバーから処理済みの PDF ドキュメントをダウンロード
  4. 特定の PDF ドキュメントのすべてのハイパーリンク注釈を取得
  5. PDF ドキュメント内の特定の Id を使用してハイパーリンク注釈を取得
 

Python を使用して PDF からリンクを抽出


    import shutil
    import json
    import logging
    from pathlib import Path
    from asposepdfcloud import ApiClient, PdfApi

    # Configure logging
    logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


    class Config:
        """Configuration parameters."""
        CREDENTIALS_FILE = Path(r"C:\\Projects\\ASPOSE\\Pdf.Cloud\\Credentials\\credentials.json")
        LOCAL_FOLDER = Path(r"C:\Samples")
        PDF_DOCUMENT_NAME = "sample.pdf"
        LOCAL_RESULT_DOCUMENT_NAME = "output_sample.pdf"
        PAGE_NUMBER = 2
        LINK_FIND_ID = "GI5UO32UN5KVESKBMN2GS33OHMZTEMJMGUYDQLBTGYYCYNJSGE"


    class PdfLinks:
        """Class for managing PDF links using Aspose PDF Cloud API."""

        def __init__(self, credentials_file: Path = Config.CREDENTIALS_FILE):
            self.pdf_api = None
            self._init_api(credentials_file)

        def _init_api(self, credentials_file: Path):
            """Initialize the API client."""
            try:
                with credentials_file.open("r", encoding="utf-8") as file:
                    credentials = json.load(file)
                    api_key, app_id = credentials.get("key"), credentials.get("id")
                    if not api_key or not app_id:
                        raise ValueError("Error: Missing API keys in the credentials file.")
                    self.pdf_api = PdfApi(ApiClient(api_key, app_id))
            except (FileNotFoundError, json.JSONDecodeError, ValueError) as e:
                logging.error(f"Failed to load credentials: {e}")

        def upload_document(self):
            """Upload a PDF document to the Aspose Cloud server."""
            if self.pdf_api:
                file_path = Config.LOCAL_FOLDER / Config.PDF_DOCUMENT_NAME
                try:
                    self.pdf_api.upload_file(Config.PDF_DOCUMENT_NAME, str(file_path))
                    logging.info(f"File {Config.PDF_DOCUMENT_NAME} uploaded successfully.")
                except Exception as e:
                    logging.error(f"Failed to upload file: {e}")

        def show_links_array(self, links, prefix):
            for item in links:
                logging.info(f"{prefix} Link ID: '{item.id}' - Link Action: '{item.action}'")

        def get_all_links(self):
            """Get all hyperlink annotations for a specific PDF document."""
            if self.pdf_api:
                try:
                    response = self.pdf_api.get_page_link_annotations( Config.PDF_DOCUMENT_NAME, Config.PAGE_NUMBER)
                    if response.code == 200:
                        self.show_links_array(response.links.list, "All: ")
                    else:
                        logging.error(f"Failed to add link to the page. Response code: {response.code}")
                except Exception as e:
                    logging.error(f"Error while adding link: {e}")

        def get_link_by_id(self, link_id: str):
            """Get hyperlink annotation using the specific Id in PDF document."""
            if self.pdf_api:
                try:
                    result_link = self.pdf_api.get_link_annotation(Config.PDF_DOCUMENT_NAME, link_id)
                    if result_link.code == 200:
                        self.show_links_array([result_link.link], "Find: ")
                except Exception as e:
                    logging.error(f"Error while adding link: {e}")

    if __name__ == "__main__":
        pdf_links = PdfLinks()
        pdf_links.upload_document()
        pdf_links.get_all_links()
        pdf_links.get_link_by_id(Config.LINK_FIND_ID)
 

PDF のリンクを操作

リンクを抽出することで、各 URL の有効性と関連性を体系的に検証し、すべての参照が最新で機能していることを確認できます。リンクされたドキュメントのダウンロードやバッチ分析の実行などのタスクでは、URL の抽出により自動化が可能になり、時間を節約し手動作業を減らすことができます。 Aspose.PDF Cloud Python SDK を使用して PDF ドキュメントからリンクを取得します。

私たちの Python ライブラリを使用すると、次のことができます:

  • PDF ドキュメントを結合。
  • PDF ファイルを分割。
  • PDF を他の形式に変換し、その逆も可能。
  • 注釈を操作。
  • PDF 内の画像を操作するなど。
  • オンラインで機能をテストするために、無料アプリ を試すことができます。