Разбор PDF для извлечения текстов в Python SDK
API для разбора PDF-документов для извлечения текстов с использованием серверного API на Python.
Get StartedКак разобрать PDF-документы для извлечения текстов с использованием Cloud Python SDK
Для разбора PDF-документов для извлечения текстов через Cloud Python SDK мы будем использовать Aspose.PDF Cloud Python SDK Этот Cloud SDK помогает разработчикам на Python создавать облачные приложения для создания, аннотирования, редактирования, конвертации и разбора PDF с использованием Aspose.PDF REST API. Просто создайте учетную запись на Aspose for Cloud и получите информацию о вашем приложении. Как только у вас есть App SID и ключ, вы готовы использовать Aspose.PDF Cloud Python SDK. Если пакет Python размещен на Github, вы можете установить его напрямую с Github:
Установка с Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Шаги для разбора PDF для извлечения текстов с использованием Python SDK
Разработчики Aspose.PDF Cloud могут легко разбирать PDF-документы для извлечения текстов. Разработчикам требуется всего несколько строк кода.
- Создайте новый объект конфигурации с вашим секретным ключом и ключом приложения
- Создайте объект для подключения к Cloud API
- Загрузите ваш файл документа
- Разберите PDF-документы для извлечения текстов в документе PDF на облачном хранилище с использованием функции get_document_text_box_fields
- Проверьте ответ и зарегистрируйте результат
- Загрузите информацию о текстовом поле в файл JSON локально, если это необходимо
Этот пример кода показывает разбор PDF-документа для извлечения текстов
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class ParseExtractTextBox:
"""Class for extracting text box from PDF document using Aspose PDF Cloud API."""
def __init__(self):
self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)
def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
"""Upload a PDF document to the Aspose Cloud server."""
if self.pdf_api:
file_path = localFolder / documentName
try:
if remoteFolder == None:
self.pdf_api.upload_file(documentName, str(file_path))
else:
opts = { "folder": remoteFolder }
self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
logging.info(f"File {documentName} uploaded successfully.")
except Exception as e:
logging.error(f"Failed to upload file: {e}")
def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
self.upload_document(documentName, remoteFolder)
opts = {
"folder": remoteFolder
}
respTextBoxes = self.pdf_api.get_document_text_box_fields(documentName, **opts)
if respTextBoxes.code != 200:
logging.error("GetTextBoxes(): Unexpected error!")
else:
localJson = Path.joinpath(localFolder, "text_box_objects.json")
with open(str(localJson), "w", encoding="utf-8") as localFile:
localFile.write("[\n")
for textBox in respTextBoxes.fields.list:
x = self.helper.pdf_api.get_text_box_field(documentName, )
logging.info(f"GetTextBoxes(): TextBox field '{textBox.full_name}' successfully extracted from the document '{documentName}'.")
jsText = json.dumps(textBox.__dict__, ensure_ascii=False, default=str, indent=4) +",\n\n"
localFile.write(jsText)
localFile.write("]")
Работа с разбором текста в PDF с помощью Python SDK
Разбирая PDF-документы для извлечения текстов, вы можете изменить содержимое полей TextBox по мере необходимости. Это сохраняет позицию текста в документах, экономя время и уменьшая ручную работу. Разберите PDF-документы для извлечения текстов с помощью Aspose.PDF Cloud Python SDK.
С нашим Python SDK вы можете
- Добавлять заголовок и нижний колонтитул PDF-документа в текстовом или графическом формате.
- Добавлять таблицы и текстовые или графические штампы в PDF-документы.
- Присоединять несколько PDF-документов к существующему файлу.
- Работать с вложениями PDF, аннотациями и полями формы.
- Применять шифрование или дешифрование к PDF-документам и устанавливать пароль.
- Удалять все штампы и таблицы со страницы или всего PDF-документа.
- Удалять конкретный штамп или таблицу из PDF-документа по их идентификатору.
- Заменять одну или несколько вхождений текста на странице PDF или во всем документе.
- Обширная поддержка конвертации PDF-документов в различные другие форматы файлов.
- Извлекать различные элементы PDF-файлов и оптимизировать PDF-документы.
- Вы можете попробовать наше бесплатное приложение, чтобы протестировать функциональность.
- Учебные ресурсы
- Документация
- Исходный код
- Ссылки на API
- Поддержка продукта
- Бесплатная поддержка
- Платная поддержка
- Блог
- Почему Aspose.PDF Cloud для Python?
- Список клиентов
- Безопасность