PNG JPG BMP TIFF PDF
Aspose.PDF  для Python

Извлечение ссылок из PDF в Python SDK

Извлечение ссылок к PDF документу с использованием Cloud Python SDK.

Get Started

Как извлечь ссылки из PDF через Cloud Python SDK

Чтобы получить ссылки из PDF, мы будем использовать Aspose.PDF Cloud Python SDK. Этот Cloud SDK помогает программистам на Python разрабатывать приложения для создания, аннотирования, редактирования и конвертации PDF на основе облака с использованием REST API Aspose.PDF. Просто создайте учетную запись на Aspose for Cloud и получите информацию о вашем приложении. Как только у вас будут App SID и ключ, вы готовы использовать Aspose.PDF Cloud Python SDK. Если пакет python размещен на Github, вы можете установить его напрямую оттуда:

Установка с Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git

Команда консоли диспетчера пакетов

     
    pip install asposepdfcloud

Шаги для извлечения ссылок из PDF с помощью Python

Разработчики Aspose.PDF Cloud могут легко загрузить и получить ссылки из PDF всего в несколько строк кода.

  1. Установите Python SDK
  2. Загрузите PDF документ на сервер Aspose Cloud
  3. Скачайте обработанный PDF документ с сервера Aspose Cloud
  4. Получите все аннотации гиперссылок для конкретного PDF документа
  5. Получите аннотацию гиперссылки, используя конкретный Id в PDF документе
 

Извлечение ссылок из PDF с использованием Python


    import shutil
    import json
    import logging
    from pathlib import Path
    from asposepdfcloud import ApiClient, PdfApi

    # Configure logging
    logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


    class Config:
        """Configuration parameters."""
        CREDENTIALS_FILE = Path(r"C:\\Projects\\ASPOSE\\Pdf.Cloud\\Credentials\\credentials.json")
        LOCAL_FOLDER = Path(r"C:\Samples")
        PDF_DOCUMENT_NAME = "sample.pdf"
        LOCAL_RESULT_DOCUMENT_NAME = "output_sample.pdf"
        PAGE_NUMBER = 2
        LINK_FIND_ID = "GI5UO32UN5KVESKBMN2GS33OHMZTEMJMGUYDQLBTGYYCYNJSGE"


    class PdfLinks:
        """Class for managing PDF links using Aspose PDF Cloud API."""

        def __init__(self, credentials_file: Path = Config.CREDENTIALS_FILE):
            self.pdf_api = None
            self._init_api(credentials_file)

        def _init_api(self, credentials_file: Path):
            """Initialize the API client."""
            try:
                with credentials_file.open("r", encoding="utf-8") as file:
                    credentials = json.load(file)
                    api_key, app_id = credentials.get("key"), credentials.get("id")
                    if not api_key or not app_id:
                        raise ValueError("Error: Missing API keys in the credentials file.")
                    self.pdf_api = PdfApi(ApiClient(api_key, app_id))
            except (FileNotFoundError, json.JSONDecodeError, ValueError) as e:
                logging.error(f"Failed to load credentials: {e}")

        def upload_document(self):
            """Upload a PDF document to the Aspose Cloud server."""
            if self.pdf_api:
                file_path = Config.LOCAL_FOLDER / Config.PDF_DOCUMENT_NAME
                try:
                    self.pdf_api.upload_file(Config.PDF_DOCUMENT_NAME, str(file_path))
                    logging.info(f"File {Config.PDF_DOCUMENT_NAME} uploaded successfully.")
                except Exception as e:
                    logging.error(f"Failed to upload file: {e}")

        def show_links_array(self, links, prefix):
            for item in links:
                logging.info(f"{prefix} Link ID: '{item.id}' - Link Action: '{item.action}'")

        def get_all_links(self):
            """Get all hyperlink annotations for a specific PDF document."""
            if self.pdf_api:
                try:
                    response = self.pdf_api.get_page_link_annotations( Config.PDF_DOCUMENT_NAME, Config.PAGE_NUMBER)
                    if response.code == 200:
                        self.show_links_array(response.links.list, "All: ")
                    else:
                        logging.error(f"Failed to add link to the page. Response code: {response.code}")
                except Exception as e:
                    logging.error(f"Error while adding link: {e}")

        def get_link_by_id(self, link_id: str):
            """Get hyperlink annotation using the specific Id in PDF document."""
            if self.pdf_api:
                try:
                    result_link = self.pdf_api.get_link_annotation(Config.PDF_DOCUMENT_NAME, link_id)
                    if result_link.code == 200:
                        self.show_links_array([result_link.link], "Find: ")
                except Exception as e:
                    logging.error(f"Error while adding link: {e}")

    if __name__ == "__main__":
        pdf_links = PdfLinks()
        pdf_links.upload_document()
        pdf_links.get_all_links()
        pdf_links.get_link_by_id(Config.LINK_FIND_ID)
 

Работа со ссылками в PDF

Извлекая ссылки, можно систематически проверять их актуальность и релевантность, гарантируя, что все ссылки актуальны и функциональны. Для задач, таких как скачивание связанных документов или проведение пакетного анализа, извлечение URL позволяет автоматизировать процессы, экономя время и снижая ручные усилия. Получите ссылки из PDF документов с Aspose.PDF Cloud Python SDK.

С нашей библиотекой Python вы можете:

  • Объединять PDF документы.
  • Разделять PDF файлы.
  • Конвертировать PDF в другие форматы и наоборот.
  • Манипулировать аннотациями.
  • Работать с изображениями в PDF и др.
  • Вы можете попробовать наше бесплатное приложение, чтобы протестировать функциональность онлайн.