PNG JPG BMP TIFF PDF
Aspose.PDF  for Python

Trích Xuất Liên Kết từ PDF trong Python SDK

Trích Xuất Liên Kết đến Tài liệu PDF bằng Cloud Python SDK.

Get Started

Cách Trích Xuất Liên Kết từ PDF qua Cloud Python SDK

Để lấy liên kết từ PDF, chúng ta sẽ sử dụng Aspose.PDF Cloud Python SDK. Cloud SDK này hỗ trợ các lập trình viên Python phát triển các ứng dụng tạo, chú thích, chỉnh sửa và chuyển đổi PDF dựa trên đám mây sử dụng ngôn ngữ lập trình Python thông qua Aspose.PDF REST API. Chỉ cần tạo một tài khoản tại Aspose for Cloud và nhận thông tin ứng dụng của bạn. Khi bạn đã có App SID & key, bạn đã sẵn sàng để sử dụng Aspose.PDF Cloud Python SDK. Nếu gói python được lưu trữ trên Github, bạn có thể cài đặt trực tiếp từ Github:

Cài đặt từ Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git

Lệnh Console của Trình Quản Lý Gói

     
    pip install asposepdfcloud

Các Bước để Trích Xuất Liên Kết từ PDF qua Python

Các nhà phát triển Aspose.PDF Cloud có thể dễ dàng tải & lấy liên kết từ PDF chỉ với vài dòng mã.

  1. Cài đặt Python SDK
  2. Tải lên tài liệu PDF lên máy chủ Aspose Cloud
  3. Tải xuống tài liệu PDF đã xử lý từ máy chủ Aspose Cloud
  4. Lấy tất cả các chú thích liên kết cho một tài liệu PDF cụ thể
  5. Lấy chú thích liên kết sử dụng Id cụ thể trong tài liệu PDF
 

Trích Xuất Liên Kết từ PDF bằng Python


    import shutil
    import json
    import logging
    from pathlib import Path
    from asposepdfcloud import ApiClient, PdfApi

    # Configure logging
    logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


    class Config:
        """Configuration parameters."""
        CREDENTIALS_FILE = Path(r"C:\\Projects\\ASPOSE\\Pdf.Cloud\\Credentials\\credentials.json")
        LOCAL_FOLDER = Path(r"C:\Samples")
        PDF_DOCUMENT_NAME = "sample.pdf"
        LOCAL_RESULT_DOCUMENT_NAME = "output_sample.pdf"
        PAGE_NUMBER = 2
        LINK_FIND_ID = "GI5UO32UN5KVESKBMN2GS33OHMZTEMJMGUYDQLBTGYYCYNJSGE"


    class PdfLinks:
        """Class for managing PDF links using Aspose PDF Cloud API."""

        def __init__(self, credentials_file: Path = Config.CREDENTIALS_FILE):
            self.pdf_api = None
            self._init_api(credentials_file)

        def _init_api(self, credentials_file: Path):
            """Initialize the API client."""
            try:
                with credentials_file.open("r", encoding="utf-8") as file:
                    credentials = json.load(file)
                    api_key, app_id = credentials.get("key"), credentials.get("id")
                    if not api_key or not app_id:
                        raise ValueError("Error: Missing API keys in the credentials file.")
                    self.pdf_api = PdfApi(ApiClient(api_key, app_id))
            except (FileNotFoundError, json.JSONDecodeError, ValueError) as e:
                logging.error(f"Failed to load credentials: {e}")

        def upload_document(self):
            """Upload a PDF document to the Aspose Cloud server."""
            if self.pdf_api:
                file_path = Config.LOCAL_FOLDER / Config.PDF_DOCUMENT_NAME
                try:
                    self.pdf_api.upload_file(Config.PDF_DOCUMENT_NAME, str(file_path))
                    logging.info(f"File {Config.PDF_DOCUMENT_NAME} uploaded successfully.")
                except Exception as e:
                    logging.error(f"Failed to upload file: {e}")

        def show_links_array(self, links, prefix):
            for item in links:
                logging.info(f"{prefix} Link ID: '{item.id}' - Link Action: '{item.action}'")

        def get_all_links(self):
            """Get all hyperlink annotations for a specific PDF document."""
            if self.pdf_api:
                try:
                    response = self.pdf_api.get_page_link_annotations( Config.PDF_DOCUMENT_NAME, Config.PAGE_NUMBER)
                    if response.code == 200:
                        self.show_links_array(response.links.list, "All: ")
                    else:
                        logging.error(f"Failed to add link to the page. Response code: {response.code}")
                except Exception as e:
                    logging.error(f"Error while adding link: {e}")

        def get_link_by_id(self, link_id: str):
            """Get hyperlink annotation using the specific Id in PDF document."""
            if self.pdf_api:
                try:
                    result_link = self.pdf_api.get_link_annotation(Config.PDF_DOCUMENT_NAME, link_id)
                    if result_link.code == 200:
                        self.show_links_array([result_link.link], "Find: ")
                except Exception as e:
                    logging.error(f"Error while adding link: {e}")

    if __name__ == "__main__":
        pdf_links = PdfLinks()
        pdf_links.upload_document()
        pdf_links.get_all_links()
        pdf_links.get_link_by_id(Config.LINK_FIND_ID)
 

Làm việc với liên kết trong PDF

Bằng cách trích xuất các liên kết, một người có thể kiểm tra một cách hệ thống tính hợp lệ và độ liên quan của từng URL, đảm bảo rằng tất cả các tham chiếu đều hiện tại và hoạt động. Đối với các nhiệm vụ như tải xuống các tài liệu liên kết hoặc thực hiện các phân tích hàng loạt, việc trích xuất URL cho phép tự động hóa, tiết kiệm thời gian và giảm thiểu công sức thủ công. Lấy các liên kết từ tài liệu PDF với Aspose.PDF Cloud Python SDK.

Với thư viện Python của chúng tôi, bạn có thể:

  • Kết hợp tài liệu PDF.
  • Tách các tập tin PDF.
  • Chuyển đổi PDF sang định dạng khác và ngược lại.
  • Thao tác Chú thích.
  • Làm việc với Hình ảnh trong PDF, v.v.
  • Bạn có thể thử Ứng dụng miễn phí của chúng tôi để kiểm tra chức năng trực tuyến.