HTML JPG PDF XML DOCX
  Product Family
PDF

Анализ PDF для извлечения текста по имени в Python SDK

API для анализа PDF-документов для извлечения текста по имени с использованием серверного API Python.

Get Started

Как анализировать PDF-документы для извлечения текста по имени с помощью Cloud Python SDK

Для анализа PDF-документов для извлечения текста по имени через Cloud Python SDK мы используем Aspose.PDF Cloud Python SDK Этот Cloud SDK помогает программистам на Python разрабатывать облачные приложения для создания, аннотирования, редактирования, конвертации и анализа PDF с использованием REST API Aspose.PDF. Просто создайте учетную запись на Aspose for Cloud и получите информацию о вашем приложении. Как только у вас есть SID приложения и ключ, вы готовы использовать Aspose.PDF Cloud Python SDK. Если пакет Python размещен на Github, вы можете установить его напрямую с Github:

Установка с Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
     
     

Шаги для анализа PDF для извлечения текста по имени с использованием Python SDK

Разработчики Aspose.PDF Cloud могут легко анализировать PDF-документы для извлечения текста по имени. Разработчикам требуется всего несколько строк кода.

  1. Создайте новый объект Configuration с вашим секретным ключом и идентификатором приложения
  2. Создайте объект для подключения к Cloud API
  3. Загрузите ваш файл документа
  4. Анализируйте PDF-документы для извлечения текста по имени в облачном хранилище с использованием функции get_text_box_field
  5. Проверьте ответ и зарегистрируйте результат
  6. Скачайте информацию о текстовом поле в формате JSON локально, если необходимо
 

Этот пример кода показывает анализ PDF-документа для извлечения текста по имени


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTextBox:
    """Class for extracting text box from PDF document using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
	response = self.pdf_api.get_text_box_field(documentName, textboxName, **opts)
        if response.code != 200:
            logging.error("ParseExtractTextBox(): Unexpected error!")
        else:
	    logging.info(f"ParseExtractTextBox(): TextBox field '{textboxName}' successfully extracted from the document '{documentName}'.")
            localJsonFile = str(Path.joinpath(localFolder, "text_box_objects.json"))
            with open(localJsonFile, "w", encoding="utf-8") as localFile:            
               jsText = json.dumps(response.field.__dict__, ensure_ascii=False, default=str, indent=4)
               localFile.write(jsText)
 

Работа с разбором текста в PDF через Python SDK

Анализируя PDF-документы для извлечения текста по имени, вы можете изменять содержимое поля TextBox по мере необходимости. Это сохраняет позицию текста в документах, экономя время и снижая трудозатраты. Анализируйте PDF-документы для извлечения текста по имени с Aspose.PDF Cloud Python SDK.

С нашим Python SDK вы можете

  • Добавлять заголовок и подвал PDF-документа в текстовом или графическом формате.
  • Добавлять таблицы и текстовые или графические штампы в PDF-документы.
  • Присоединять несколько PDF-документов к существующему файлу.
  • Работать с вложениями PDF, аннотациями и полями формы.
  • Применять шифрование или дешифрование к PDF-документам и устанавливать пароль.
  • Удалять все штампы и таблицы с страницы или всего PDF-документа.
  • Удалять конкретный штамп или таблицу из PDF-документа по его ID.
  • Заменять один или несколько экземпляров текста на странице PDF или во всем документе.
  • Обширная поддержка конвертации PDF-документов в различные другие форматы файлов.
  • Извлекать различные элементы PDF-файлов и оптимизировать PDF-документы.
  • Вы можете попробовать наше бесплатное приложение для тестирования функциональности.

  •