PNG JPG BMP TIFF PDF
Aspose.PDF  for Python

Извлечение таблицы из PDF в Python SDK

Извлечение таблиц из PDF-документа с использованием Cloud Python SDK.

Get Started

Как извлечь таблицы из PDF с помощью Cloud Python SDK

Чтобы извлечь таблицы из PDF, мы будем использовать Aspose.PDF Cloud Python SDK. Этот Cloud SDK помогает разработчикам на Python создавать облачные приложения для создания, аннотирования, редактирования и конвертации PDF-файлов с использованием языка программирования Python через Aspose.PDF REST API. Просто создайте учетную запись на Aspose for Cloud и получите информацию о приложении. Как только у вас будут SID и ключ приложения, вы готовы использовать Aspose.PDF Cloud Python SDK. Если пакет python размещен на Github, вы можете установить его напрямую с Github:

Установка с Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git

Команда консоли диспетчера пакетов

     
    pip install asposepdfcloud

Шаги для извлечения таблиц из PDF через Python SDK

Разработчики Aspose.PDF Cloud могут легко загружать и извлекать таблицы из PDF всего в несколько строк кода.

  1. Установите Python SDK
  2. Загрузите PDF-документ на сервер Aspose Cloud
  3. Загрузите обработанный PDF-документ с сервера Aspose Cloud
  4. Получите все таблицы
 

Извлечение таблиц из PDF с использованием Python


    import shutil
    import json
    import logging
    from pathlib import Path
    from asposepdfcloud import ApiClient, PdfApi, Table, Row, Cell, FontStyles, GraphInfo, TextRect, TextState, Color, BorderInfo
    # Configure logging
    logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")

    class Config:
        """Configuration parameters."""
        CREDENTIALS_FILE = Path(r"C:\\Projects\\ASPOSE\\Pdf.Cloud\\Credentials\\credentials.json")
        LOCAL_FOLDER = Path(r"C:\Samples")
        PDF_DOCUMENT_NAME = "sample.pdf"
        LOCAL_RESULT_DOCUMENT_NAME = "output_sample.pdf"
        PAGE_NUMBER = 2
        TABLE_ID = "GE5TCOZSGAYCYNRQGUWDINZVFQ3DGMA"

    class PdfTables:
        """ Class for managing PDF tables using Aspose PDF Cloud API. """
        def __init__(self, credentials_file: Path = Config.CREDENTIALS_FILE):
            self.pdf_api = None
            self._init_api(credentials_file)

        def _init_api(self, credentials_file: Path):
            """ Initialize the API client. """
            try:
                with credentials_file.open("r", encoding="utf-8") as file:
                    credentials = json.load(file)
                    api_key, app_id = credentials.get("key"), credentials.get("id")
                    if not api_key or not app_id:
                        raise ValueError("init_api(): Error: Missing API keys in the credentials file.")
                    self.pdf_api = PdfApi(ApiClient(api_key, app_id))
            except (FileNotFoundError, json.JSONDecodeError, ValueError) as e:
                logging.error(f"init_api(): Failed to load credentials: {e}")

        def upload_document(self):
            """ Upload a PDF document to the Aspose Cloud server. """
            if self.pdf_api:
                file_path = Config.LOCAL_FOLDER / Config.PDF_DOCUMENT_NAME
                try:
                    self.pdf_api.upload_file(Config.PDF_DOCUMENT_NAME, str(file_path))
                    logging.info(f"upload_document(): File {Config.PDF_DOCUMENT_NAME} uploaded successfully.")
                except Exception as e:
                    logging.error(f"upload_document(): Failed to upload file: {e}")

        def _show_tables_info(self, tables, prefix):
            if tables and len(tables) > 0 :
                for table in tables:
                    logging.info(f"{prefix} => id: '{table.id}', page: '{table.page_num}', rows: '{len(table.row_list)}', columns: '{len(table.row_list[0].cell_list)}'")
            else:
                logging.error(f"showBoormarks() error: array of tables is empty!")

        def get_all_tables(self):
            if self.pdf_api:
                resultTabs = self.pdf_api.get_document_tables(Config.PDF_DOCUMENT_NAME)

                if resultTabs.code == 200 and resultTabs.tables:
                    if not resultTabs.tables.list or len(resultTabs.tables.list) == 0:
                        logging.error("get_all_tables(): Unexpected error - tables is null or empty!!!")
                    self._show_tables_info(resultTabs.tables.list, "All tables")
                    return resultTabs.tables.list
                else:
                    logging.error("get_all_tables(): Unexpected error - can't get links!!!")
        
        def get_table_by_id (self):
            if self.pdf_api:
                resultTabs =self.pdf_api.get_table(Config.PDF_DOCUMENT_NAME, Config.TABLE_ID)

                if resultTabs.code == 200 and resultTabs.table:
                    self._show_tables_info( [ resultTabs.table ], "Table by Id")
                    return resultTabs.table
                else:
                    logging.error("get_table_by_id(): Unexpected error - can't get links!!!")

    if __name__ == "__main__":
        pdf_tables = PdfTables()
        pdf_tables.upload_document()
        pdf_tables.get_all_tables()
        pdf_tables.get_table_by_id()
 

Работа с таблицами в PDF

Таблицы предоставляют структурированный формат для систематического представления данных, упрощая читателям понимание и анализ информации. Они также улучшают визуальную привлекательность документа, добавляя профессионализм и организованность. При работе с числовыми или сравнительными данными таблицы улучшают ясность, группируя связанную информацию в легкодоступном формате. Кроме того, таблицы могут включать в себя данные в реальном времени или динамически генерируемый контент, такой как данные из баз данных или аналитических панелей. Извлеките таблицу из PDF-документов с помощью Aspose.PDF Cloud Python SDK.

С нашей библиотекой Python вы можете:

  • Объединять PDF-документы.
  • Разделять PDF-файлы.
  • Конвертировать PDF в другие форматы и наоборот.
  • Манипулировать аннотациями.
  • Работать с изображениями в PDF и т.д.
  • Вы можете попробовать наше бесплатное приложение для тестирования функциональности онлайн.