Извлечение ссылок из PDF в Python SDK
Извлечение ссылок к PDF документу с использованием Cloud Python SDK.
Get StartedКак извлечь ссылки из PDF через Cloud Python SDK
Чтобы получить ссылки из PDF, мы будем использовать Aspose.PDF Cloud Python SDK. Этот Cloud SDK помогает программистам на Python разрабатывать приложения для создания, аннотирования, редактирования и конвертации PDF на основе облака с использованием REST API Aspose.PDF. Просто создайте учетную запись на Aspose for Cloud и получите информацию о вашем приложении. Как только у вас будут App SID и ключ, вы готовы использовать Aspose.PDF Cloud Python SDK. Если пакет python размещен на Github, вы можете установить его напрямую оттуда:
Установка с Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Команда консоли диспетчера пакетов
pip install asposepdfcloud
Шаги для извлечения ссылок из PDF с помощью Python
Разработчики Aspose.PDF Cloud могут легко загрузить и получить ссылки из PDF всего в несколько строк кода.
- Установите Python SDK
- Загрузите PDF документ на сервер Aspose Cloud
- Скачайте обработанный PDF документ с сервера Aspose Cloud
- Получите все аннотации гиперссылок для конкретного PDF документа
- Получите аннотацию гиперссылки, используя конкретный Id в PDF документе
Извлечение ссылок из PDF с использованием Python
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class Config:
"""Configuration parameters."""
CREDENTIALS_FILE = Path(r"C:\\Projects\\ASPOSE\\Pdf.Cloud\\Credentials\\credentials.json")
LOCAL_FOLDER = Path(r"C:\Samples")
PDF_DOCUMENT_NAME = "sample.pdf"
LOCAL_RESULT_DOCUMENT_NAME = "output_sample.pdf"
PAGE_NUMBER = 2
LINK_FIND_ID = "GI5UO32UN5KVESKBMN2GS33OHMZTEMJMGUYDQLBTGYYCYNJSGE"
class PdfLinks:
"""Class for managing PDF links using Aspose PDF Cloud API."""
def __init__(self, credentials_file: Path = Config.CREDENTIALS_FILE):
self.pdf_api = None
self._init_api(credentials_file)
def _init_api(self, credentials_file: Path):
"""Initialize the API client."""
try:
with credentials_file.open("r", encoding="utf-8") as file:
credentials = json.load(file)
api_key, app_id = credentials.get("key"), credentials.get("id")
if not api_key or not app_id:
raise ValueError("Error: Missing API keys in the credentials file.")
self.pdf_api = PdfApi(ApiClient(api_key, app_id))
except (FileNotFoundError, json.JSONDecodeError, ValueError) as e:
logging.error(f"Failed to load credentials: {e}")
def upload_document(self):
"""Upload a PDF document to the Aspose Cloud server."""
if self.pdf_api:
file_path = Config.LOCAL_FOLDER / Config.PDF_DOCUMENT_NAME
try:
self.pdf_api.upload_file(Config.PDF_DOCUMENT_NAME, str(file_path))
logging.info(f"File {Config.PDF_DOCUMENT_NAME} uploaded successfully.")
except Exception as e:
logging.error(f"Failed to upload file: {e}")
def show_links_array(self, links, prefix):
for item in links:
logging.info(f"{prefix} Link ID: '{item.id}' - Link Action: '{item.action}'")
def get_all_links(self):
"""Get all hyperlink annotations for a specific PDF document."""
if self.pdf_api:
try:
response = self.pdf_api.get_page_link_annotations( Config.PDF_DOCUMENT_NAME, Config.PAGE_NUMBER)
if response.code == 200:
self.show_links_array(response.links.list, "All: ")
else:
logging.error(f"Failed to add link to the page. Response code: {response.code}")
except Exception as e:
logging.error(f"Error while adding link: {e}")
def get_link_by_id(self, link_id: str):
"""Get hyperlink annotation using the specific Id in PDF document."""
if self.pdf_api:
try:
result_link = self.pdf_api.get_link_annotation(Config.PDF_DOCUMENT_NAME, link_id)
if result_link.code == 200:
self.show_links_array([result_link.link], "Find: ")
except Exception as e:
logging.error(f"Error while adding link: {e}")
if __name__ == "__main__":
pdf_links = PdfLinks()
pdf_links.upload_document()
pdf_links.get_all_links()
pdf_links.get_link_by_id(Config.LINK_FIND_ID)
Работа со ссылками в PDF
Извлекая ссылки, можно систематически проверять их актуальность и релевантность, гарантируя, что все ссылки актуальны и функциональны. Для задач, таких как скачивание связанных документов или проведение пакетного анализа, извлечение URL позволяет автоматизировать процессы, экономя время и снижая ручные усилия. Получите ссылки из PDF документов с Aspose.PDF Cloud Python SDK.
С нашей библиотекой Python вы можете:
- Объединять PDF документы.
- Разделять PDF файлы.
- Конвертировать PDF в другие форматы и наоборот.
- Манипулировать аннотациями.
- Работать с изображениями в PDF и др.
- Вы можете попробовать наше бесплатное приложение, чтобы протестировать функциональность онлайн.