通过 Python SDK 将 PDF 解析为 XML 格式的表单字段

使用服务器端 Python API 解析 PDF 文档以提取表单字段为 XML 格式的 API。

Get Started

NET PHP GO NODEJS

如何使用云端 Python SDK 解析 PDF 文档以提取表单字段为 XML

为了通过云端 Python SDK 解析 PDF 文档以提取表单字段为 XML，我们将使用 Aspose.PDF Cloud Python SDK 这个云端 SDK 帮助 Python 程序员使用 Aspose.PDF REST API 开发基于云的 PDF 创建、注释、编辑、转换和解析应用程序。只需在 Aspose for Cloud 创建一个账户并获取您的应用信息。一旦您拥有 App SID 和密钥，您就可以使用 Aspose.PDF Cloud Python SDK。如果 Python 包托管在 Github 上，您可以直接从 Github 安装：

从 Github 安装
     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git

包管理器控制台命令     
    pip install asposepdfcloud

使用 Python SDK 解析 PDF 以提取表单字段为 XML 的步骤

Aspose.PDF Cloud 开发者可以轻松解析 PDF 文档以提取表单字段为 XML。开发者只需几行代码。

使用您的应用程序密钥和密钥创建一个新的配置对象
创建一个对象以连接到云 API
上传您的文档文件
使用 put_export_fields_from_pdf_to_xml_in_storage 函数在云存储中解析 PDF 文档以提取表单字段为 XML
检查响应并记录结果
如有需要，将 XML 文件下载到本地

此示例代码显示如何解析 PDF 文档以提取表单字段为 XML
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ExportFormToXML:
    """Class for extracting PDF form fields into XML using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def uploadDocument(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

    def downloadFile(self, document: str, outputDocument: str, localFolder: Path, remoteFolder: str,  output_prefix: str):
        """Download the processed PDF document from the Aspose Cloud server."""
        if self.pdf_api:
            try:
                temp_file = self.pdf_api.download_file(remoteFolder + '/' + document)
                local_path = localFolder / ( output_prefix + outputDocument )
                shutil.move(temp_file, str(local_path))
                logging.info(f"download_result(): File successfully downloaded: {local_path}")
            except Exception as e:
                logging.error(f"download_result(): Failed to download file: {e}")


    def Extract(self, documentName: str, outputXMLName: str, localFolder: Path, remoteFolder: str ):
        self.uploadDocument(documentName, remoteFolder)

        XMLPath = str(Path.joinpath(Path(remoteFolder), outputXMLName))
        opts = {
            "folder": remoteFolder
        }
        response = self.pdf_put_export_fields_from_pdf_to_xml_in_storage(documentName, XMLPath, **opts)
        if response.code != 200:
            logging.error("ExportFormToXML(): Unexpected error!")
        else:
            logging.info(f"ExportFormToXML(): Pdf document '{documentName}' form fields successfully exported to '{outputXMLName}' file.")
            self.downloadFile(outputXMLName, outputXMLName, localFolder, remoteFolder, "")

通过 Python SDK 处理 PDF 中的表单解析

通过解析 PDF 文档以提取表单字段为 XML，可以系统地验证每个表单字段的有效性和相关性，确保所有引用都是最新和有效的。对于下载表单字段为 XML 或进行批量分析等任务，提取表单字段可以实现自动化，节省时间并减少人工操作。使用 Aspose.PDF Cloud Python SDK 解析 PDF 文档以提取表单字段为 XML。

使用我们的 Python SDK，您可以

以文本或图像格式添加 PDF 文档的页眉和页脚。
向 PDF 文档添加表格和文本或图像戳记。
将多个 PDF 文档附加到现有文件。
处理 PDF 附件、注释和表单字段。
对 PDF 文档应用加密或解密并设置密码。
从页面或整个 PDF 文档中删除所有戳记和表格。
按 ID 删除 PDF 文档中的特定戳记或表格。
替换 PDF 页面上的单个或多个文本实例或整个文档中的文本。
广泛支持将 PDF 文档转换为各种其他文件格式。
提取 PDF 文件的各种元素并优化 PDF 文档。
您可以试用我们的免费应用来测试功能。

为什么选择 Aspose.PDF Cloud for Python？
客户列表
安全性

通过 Python SDK 将 PDF 解析为 XML 格式的表单字段

使用服务器端 Python API 解析 PDF 文档以提取表单字段为 XML 格式的 API。

Aspose.PDF Cloud SDK for Python

Overview

如何使用云端 Python SDK 解析 PDF 文档以提取表单字段为 XML

从 Github 安装

包管理器控制台命令

使用 Python SDK 解析 PDF 以提取表单字段为 XML 的步骤

此示例代码显示如何解析 PDF 文档以提取表单字段为 XML

通过 Python SDK 处理 PDF 中的表单解析