在 Python SDK 中解析 PDF 以提取文本

用于解析 PDF 文档以使用服务器端 Python API 提取文本的 API。

Get Started

NET PHP GO NODEJS

如何使用云 Python SDK 解析 PDF 文档以提取文本

为了通过云 Python SDK 解析 PDF 文档以提取文本，我们将使用 Aspose.PDF Cloud Python SDK 此云 SDK 协助 Python 程序员使用 Aspose.PDF REST API 开发基于云的 PDF 创建、注释、编辑、转换和解析应用程序。只需在 Aspose for Cloud 创建一个帐户并获取您的应用程序信息。一旦获得了 App SID 和密钥，您就可以开始使用 Aspose.PDF Cloud Python SDK。如果 Python 包托管在 Github 上，您可以直接从 Github 安装：

从 Github 安装
     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git

使用 Python SDK 解析 PDF 以提取文本的步骤

Aspose.PDF Cloud 开发人员可以轻松解析 PDF 文档以提取文本。开发人员只需几行代码。

使用您的应用程序秘密和密钥创建一个新的配置对象
创建一个对象以连接到云 API
上传您的文档文件
使用 get_document_text_box_fields 函数在云存储中解析 PDF 文档以提取 PDF 文档中的文本
检查响应并记录结果
如有需要，可在本地下载文本框信息为 JSON 文件

此示例代码展示了解析 PDF 文档以提取文本
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTextBox:
    """Class for extracting text box from PDF document using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respTextBoxes = self.pdf_api.get_document_text_box_fields(documentName, **opts)
        if respTextBoxes.code != 200:
            logging.error("GetTextBoxes(): Unexpected error!")
        else:
            localJson = Path.joinpath(localFolder, "text_box_objects.json")
            with open(str(localJson), "w", encoding="utf-8") as localFile:
                localFile.write("[\n")
                for textBox in respTextBoxes.fields.list:
                    x = self.helper.pdf_api.get_text_box_field(documentName, )
                    logging.info(f"GetTextBoxes(): TextBox field '{textBox.full_name}' successfully extracted from the document '{documentName}'.")
                    jsText = json.dumps(textBox.__dict__, ensure_ascii=False, default=str, indent=4) +",\n\n"
                    localFile.write(jsText)
                localFile.write("]")

通过 Python SDK 处理 PDF 中的文本解析

通过解析 PDF 文档以提取文本，您可以根据需要修改文本框字段的内容。这在节省时间和减少人工操作的同时保持文本在文档中的位置。使用 Aspose.PDF Cloud Python SDK 解析 PDF 文档以提取文本。

通过我们的 Python SDK，您可以

以文本或图像格式添加 PDF 文档的页眉和页脚。
向 PDF 文档添加表格和文本或图像水印。
将多个 PDF 文档附加到现有文件中。
处理 PDF 附件、注释和表单字段。
对 PDF 文档应用加密或解密并设置密码。
从页面或整个 PDF 文档中删除所有水印和表格。
通过其 ID 删除 PDF 文档中的特定水印或表格。
替换 PDF 页面或整个文档中的单个或多个文本实例。
为将 PDF 文档转换为各种其他文件格式提供广泛支持。
提取 PDF 文件的各种元素并优化 PDF 文档。
您可以尝试我们的免费应用来测试功能。

为什么选择 Aspose.PDF Cloud for Python?
客户列表
安全性

在 Python SDK 中解析 PDF 以提取文本

用于解析 PDF 文档以使用服务器端 Python API 提取文本的 API。

Aspose.PDF Cloud SDK for Python

Overview

如何使用云 Python SDK 解析 PDF 文档以提取文本

从 Github 安装

使用 Python SDK 解析 PDF 以提取文本的步骤

此示例代码展示了解析 PDF 文档以提取文本

通过 Python SDK 处理 PDF 中的文本解析