HTML
JPG
PDF
XML
DOCX
PDF
如何使用云 Python SDK 解析 PDF 文档以按名称提取文本
为了通过云 Python SDK 解析 PDF 文档以按名称提取文本,我们将使用 Aspose.PDF 云 Python SDK 这个云 SDK 协助 Python 程序员使用 Aspose.PDF REST API 开发基于云的 PDF 创建、注释、编辑、转换和解析应用程序。只需在 Aspose for Cloud 创建一个账户并获取您的应用信息。一旦您拥有 App SID 和密钥,您就可以开始使用 Aspose.PDF 云 Python SDK。如果 Python 包托管在 Github 上,您可以直接从 Github 安装:
从 Github 安装
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
使用 Python SDK 解析 PDF 以按名称提取文本的步骤
Aspose.PDF 云开发人员可以轻松解析 PDF 文档以按名称提取文本。开发人员只需要几行代码。
- 使用您的应用程序密钥和密钥创建一个新的 Configuration 对象
- 创建一个对象以连接到云 API
- 上传您的文档文件
- 使用 get_text_box_field 函数在云存储中解析 PDF 文档以按名称提取文本
- 检查响应并记录结果
- 如有需要,将文本框信息下载为本地 JSON 文件
此示例代码显示解析 PDF 文档以按名称提取文本
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class ParseExtractTextBox:
"""Class for extracting text box from PDF document using Aspose PDF Cloud API."""
def __init__(self):
self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)
def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
"""Upload a PDF document to the Aspose Cloud server."""
if self.pdf_api:
file_path = localFolder / documentName
try:
if remoteFolder == None:
self.pdf_api.upload_file(documentName, str(file_path))
else:
opts = { "folder": remoteFolder }
self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
logging.info(f"File {documentName} uploaded successfully.")
except Exception as e:
logging.error(f"Failed to upload file: {e}")
def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
self.upload_document(documentName, remoteFolder)
opts = {
"folder": remoteFolder
}
response = self.pdf_api.get_text_box_field(documentName, textboxName, **opts)
if response.code != 200:
logging.error("ParseExtractTextBox(): Unexpected error!")
else:
logging.info(f"ParseExtractTextBox(): TextBox field '{textboxName}' successfully extracted from the document '{documentName}'.")
localJsonFile = str(Path.joinpath(localFolder, "text_box_objects.json"))
with open(localJsonFile, "w", encoding="utf-8") as localFile:
jsText = json.dumps(response.field.__dict__, ensure_ascii=False, default=str, indent=4)
localFile.write(jsText)
通过 Python SDK 处理 PDF 中的文本解析
通过按名称解析 PDF 文档进行文本提取,您可以根据需要修改文本框字段的内容。这在节省时间和减少人工工作的同时,保持了文本在文档中的位置。 使用 Aspose.PDF 云 Python SDK 按名称解析 PDF 文档以提取文本。
使用我们的 Python SDK,您可以
- 以文本或图像格式添加 PDF 文档的页眉和页脚。
- 为 PDF 文档添加表格及文字或图像印章。
- 将多个 PDF 文档附加到现有文件中。
- 使用 PDF 附件、注释和表单字段。
- 对 PDF 文档应用加密或解密并设置密码。
- 从页面或整个 PDF 文档中删除所有印章和表格。
- 通过其 ID 从 PDF 文档中删除特定的印章或表格。
- 替换 PDF 页面或整个文档中的单个或多个文本实例。
- 广泛支持将 PDF 文档转换为各种其他文件格式。
- 提取 PDF 文件的各种元素并优化 PDF 文档。
- 您可以试用我们的免费应用来测试功能。