Извлечение таблицы из PDF в Python SDK
Извлечение таблиц из PDF-документа с использованием Cloud Python SDK.
Get StartedКак извлечь таблицы из PDF с помощью Cloud Python SDK
Чтобы извлечь таблицы из PDF, мы будем использовать Aspose.PDF Cloud Python SDK. Этот Cloud SDK помогает разработчикам на Python создавать облачные приложения для создания, аннотирования, редактирования и конвертации PDF-файлов с использованием языка программирования Python через Aspose.PDF REST API. Просто создайте учетную запись на Aspose for Cloud и получите информацию о приложении. Как только у вас будут SID и ключ приложения, вы готовы использовать Aspose.PDF Cloud Python SDK. Если пакет python размещен на Github, вы можете установить его напрямую с Github:
Установка с Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Команда консоли диспетчера пакетов
pip install asposepdfcloud
Шаги для извлечения таблиц из PDF через Python SDK
Разработчики Aspose.PDF Cloud могут легко загружать и извлекать таблицы из PDF всего в несколько строк кода.
- Установите Python SDK
- Загрузите PDF-документ на сервер Aspose Cloud
- Загрузите обработанный PDF-документ с сервера Aspose Cloud
- Получите все таблицы
Извлечение таблиц из PDF с использованием Python
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi, Table, Row, Cell, FontStyles, GraphInfo, TextRect, TextState, Color, BorderInfo
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class Config:
"""Configuration parameters."""
CREDENTIALS_FILE = Path(r"C:\\Projects\\ASPOSE\\Pdf.Cloud\\Credentials\\credentials.json")
LOCAL_FOLDER = Path(r"C:\Samples")
PDF_DOCUMENT_NAME = "sample.pdf"
LOCAL_RESULT_DOCUMENT_NAME = "output_sample.pdf"
PAGE_NUMBER = 2
TABLE_ID = "GE5TCOZSGAYCYNRQGUWDINZVFQ3DGMA"
class PdfTables:
""" Class for managing PDF tables using Aspose PDF Cloud API. """
def __init__(self, credentials_file: Path = Config.CREDENTIALS_FILE):
self.pdf_api = None
self._init_api(credentials_file)
def _init_api(self, credentials_file: Path):
""" Initialize the API client. """
try:
with credentials_file.open("r", encoding="utf-8") as file:
credentials = json.load(file)
api_key, app_id = credentials.get("key"), credentials.get("id")
if not api_key or not app_id:
raise ValueError("init_api(): Error: Missing API keys in the credentials file.")
self.pdf_api = PdfApi(ApiClient(api_key, app_id))
except (FileNotFoundError, json.JSONDecodeError, ValueError) as e:
logging.error(f"init_api(): Failed to load credentials: {e}")
def upload_document(self):
""" Upload a PDF document to the Aspose Cloud server. """
if self.pdf_api:
file_path = Config.LOCAL_FOLDER / Config.PDF_DOCUMENT_NAME
try:
self.pdf_api.upload_file(Config.PDF_DOCUMENT_NAME, str(file_path))
logging.info(f"upload_document(): File {Config.PDF_DOCUMENT_NAME} uploaded successfully.")
except Exception as e:
logging.error(f"upload_document(): Failed to upload file: {e}")
def _show_tables_info(self, tables, prefix):
if tables and len(tables) > 0 :
for table in tables:
logging.info(f"{prefix} => id: '{table.id}', page: '{table.page_num}', rows: '{len(table.row_list)}', columns: '{len(table.row_list[0].cell_list)}'")
else:
logging.error(f"showBoormarks() error: array of tables is empty!")
def get_all_tables(self):
if self.pdf_api:
resultTabs = self.pdf_api.get_document_tables(Config.PDF_DOCUMENT_NAME)
if resultTabs.code == 200 and resultTabs.tables:
if not resultTabs.tables.list or len(resultTabs.tables.list) == 0:
logging.error("get_all_tables(): Unexpected error - tables is null or empty!!!")
self._show_tables_info(resultTabs.tables.list, "All tables")
return resultTabs.tables.list
else:
logging.error("get_all_tables(): Unexpected error - can't get links!!!")
def get_table_by_id (self):
if self.pdf_api:
resultTabs =self.pdf_api.get_table(Config.PDF_DOCUMENT_NAME, Config.TABLE_ID)
if resultTabs.code == 200 and resultTabs.table:
self._show_tables_info( [ resultTabs.table ], "Table by Id")
return resultTabs.table
else:
logging.error("get_table_by_id(): Unexpected error - can't get links!!!")
if __name__ == "__main__":
pdf_tables = PdfTables()
pdf_tables.upload_document()
pdf_tables.get_all_tables()
pdf_tables.get_table_by_id()
Работа с таблицами в PDF
Таблицы предоставляют структурированный формат для систематического представления данных, упрощая читателям понимание и анализ информации. Они также улучшают визуальную привлекательность документа, добавляя профессионализм и организованность. При работе с числовыми или сравнительными данными таблицы улучшают ясность, группируя связанную информацию в легкодоступном формате. Кроме того, таблицы могут включать в себя данные в реальном времени или динамически генерируемый контент, такой как данные из баз данных или аналитических панелей. Извлеките таблицу из PDF-документов с помощью Aspose.PDF Cloud Python SDK.
С нашей библиотекой Python вы можете:
- Объединять PDF-документы.
- Разделять PDF-файлы.
- Конвертировать PDF в другие форматы и наоборот.
- Манипулировать аннотациями.
- Работать с изображениями в PDF и т.д.
- Вы можете попробовать наше бесплатное приложение для тестирования функциональности онлайн.