HTML JPG PDF XML DOCX
  Product Family
PDF

Анализ PDF для извлечения таблицы по идентификатору в Python SDK

API для анализа PDF-документов для извлечения таблицы по идентификатору с использованием серверного Python API.

Get Started

Как анализировать PDF-документы для извлечения таблицы по идентификатору с использованием Cloud Python SDK

Для анализа PDF-документов и извлечения таблицы по идентификатору через Cloud Python SDK мы будем использовать Aspose.PDF Cloud Python SDK Этот Cloud SDK помогает Python-программистам разрабатывать облачные приложения для создания, аннотирования, редактирования, конвертации и анализа PDF с использованием языка программирования Python через Aspose.PDF REST API. Просто создайте учетную запись на Aspose for Cloud и получите информацию о вашем приложении. Как только у вас есть SID и ключ приложения, вы готовы использовать Aspose.PDF Cloud Python SDK. Если python пакет размещен на Github, вы можете установить его напрямую с Github:

Установка с Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git

     
     

Шаги для анализа PDF для извлечения таблицы по идентификатору с использованием Python SDK

Разработчики Aspose.PDF Cloud могут легко анализировать PDF-документы для извлечения таблицы по идентификатору. Разработчикам нужно всего несколько строк кода.

  1. Создайте новый объект Configuration с вашим секретным ключом и ключом приложения
  2. Создайте объект для подключения к Cloud API
  3. Загрузите файл вашего документа
  4. Анализируйте PDF-документы для извлечения таблицы по идентификатору в облачном хранилище с использованием функции get_table
  5. Проверьте ответ и запишите результат
  6. Скачайте информацию о таблице в JSON-файл локально, если необходимо
 

Этот пример кода показывает анализ PDF-документа для извлечения таблицы по идентификатору


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTable:
    """Class for extracting table from PDF document page using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def extract(self, documentName: str, tableId: str, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        
        response  = self.pdf_api.get_table(documentName, tableId, **opts)
        if response.code != 200:
            logging.error("ParseExtractTextBox(): Unexpected error!")
        else:
            logging.info(f"ParseExtractTable(): Table '{tableId}' successfully extracted from the document '{documentName}'.")
            localJsonFile = str(Path.joinpath(localFolder, "tables_objects.json"))
            with open(localJsonFile, "w", encoding="utf-8") as localFile:            
               jsText = json.dumps(response.table.__dict__, ensure_ascii=False, default=str, indent=4)
               localFile.write(jsText)
 

Работа с анализом таблицы по идентификатору в PDF через Python SDK

Анализируя PDF-документы для извлечения таблицы по идентификатору, вы можете изменить содержимое таблицы по идентификатору по мере необходимости. Это сохраняет положение таблицы в документах, экономя время и снижая объем ручной работы. Анализируйте PDF-документы для извлечения таблицы по идентификатору с помощью Aspose.PDF Cloud Python SDK.

С нашим Python SDK вы можете

  • Добавлять заголовок и нижний колонтитул PDF-документа в текстовом или графическом формате.
  • Добавлять таблицы и текстовые или графические штампы в PDF-документы.
  • Добавлять несколько PDF-документов к существующему файлу.
  • Работать с вложениями PDF, аннотациями и полями форм.
  • Применять шифрование или дешифрование к PDF-документам и устанавливать пароль.
  • Удалять все штампы и таблицы со страницы или всего PDF-документа.
  • Удалять определенный штамп или таблицу из PDF-документа по его идентификатору.
  • Заменять один или несколько экземпляров текста на странице PDF или из всего документа.
  • Обширная поддержка конвертации PDF-документов в различные другие форматы файлов.
  • Извлекать различные элементы PDF-файлов и оптимизировать PDF-документы.
  • Вы можете попробовать наше бесплатное приложение, чтобы протестировать функциональность.

  •