Phân tích PDF để trích xuất các trường Biểu mẫu dưới dạng XML trong Python SDK
API để phân tích tài liệu PDF để trích xuất các trường Biểu mẫu dưới dạng XML bằng cách sử dụng server-side Python API.
Get StartedCách phân tích tài liệu PDF để trích xuất các trường Biểu mẫu dưới dạng XML bằng Cloud Python SDK
Để phân tích tài liệu PDF để trích xuất các trường Biểu mẫu dưới dạng XML qua Cloud Python SDK, chúng ta sẽ sử dụng Aspose.PDF Cloud Python SDK Cloud SDK này hỗ trợ các lập trình viên Python phát triển các ứng dụng tạo, chú thích, chỉnh sửa, chuyển đổi và phân tích PDF dựa trên đám mây bằng ngôn ngữ lập trình Python qua Aspose.PDF REST API. Chỉ cần tạo một tài khoản tại Aspose for Cloud và nhận thông tin ứng dụng của bạn. Khi bạn đã có App SID & key, bạn đã sẵn sàng để sử dụng Aspose.PDF Cloud Python SDK. Nếu gói python được lưu trữ trên Github, bạn có thể cài đặt trực tiếp từ Github:
Cài đặt từ Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Lệnh Console của Trình quản lý Gói
pip install asposepdfcloud
Các bước để phân tích PDF để trích xuất các trường Biểu mẫu dưới dạng XML bằng Python SDK
Các nhà phát triển Aspose.PDF Cloud có thể dễ dàng phân tích tài liệu PDF để trích xuất các trường Biểu mẫu dưới dạng XML. Các nhà phát triển chỉ cần vài dòng mã.
- Tạo một đối tượng Cấu hình mới với Bí mật Ứng dụng và Khóa của bạn
- Tạo một đối tượng để kết nối với Cloud API
- Tải lên tệp tài liệu của bạn
- Phân tích tài liệu PDF để trích xuất các trường Biểu mẫu dưới dạng XML trong lưu trữ đám mây bằng cách sử dụng hàm put_export_fields_from_pdf_to_xml_in_storage
- Kiểm tra phản hồi và ghi lại kết quả
- Tải xuống tệp XML cục bộ nếu cần
Mã mẫu này hiển thị việc phân tích tài liệu PDF để trích xuất các trường Biểu mẫu dưới dạng XML
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class ExportFormToXML:
"""Class for extracting PDF form fields into XML using Aspose PDF Cloud API."""
def __init__(self):
self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)
def uploadDocument(self, documentName: str, localFolder: str, remoteFolder: str):
"""Upload a PDF document to the Aspose Cloud server."""
if self.pdf_api:
file_path = localFolder / documentName
try:
if remoteFolder == None:
self.pdf_api.upload_file(documentName, str(file_path))
else:
opts = { "folder": remoteFolder }
self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
logging.info(f"File {documentName} uploaded successfully.")
except Exception as e:
logging.error(f"Failed to upload file: {e}")
def downloadFile(self, document: str, outputDocument: str, localFolder: Path, remoteFolder: str, output_prefix: str):
"""Download the processed PDF document from the Aspose Cloud server."""
if self.pdf_api:
try:
temp_file = self.pdf_api.download_file(remoteFolder + '/' + document)
local_path = localFolder / ( output_prefix + outputDocument )
shutil.move(temp_file, str(local_path))
logging.info(f"download_result(): File successfully downloaded: {local_path}")
except Exception as e:
logging.error(f"download_result(): Failed to download file: {e}")
def Extract(self, documentName: str, outputXMLName: str, localFolder: Path, remoteFolder: str ):
self.uploadDocument(documentName, remoteFolder)
XMLPath = str(Path.joinpath(Path(remoteFolder), outputXMLName))
opts = {
"folder": remoteFolder
}
response = self.pdf_put_export_fields_from_pdf_to_xml_in_storage(documentName, XMLPath, **opts)
if response.code != 200:
logging.error("ExportFormToXML(): Unexpected error!")
else:
logging.info(f"ExportFormToXML(): Pdf document '{documentName}' form fields successfully exported to '{outputXMLName}' file.")
self.downloadFile(outputXMLName, outputXMLName, localFolder, remoteFolder, "")
Làm việc với việc phân tích Biểu mẫu trong PDF qua Python SDK
Bằng cách phân tích tài liệu PDF để trích xuất các trường Biểu mẫu dưới dạng XML, bạn có thể hệ thống hóa việc kiểm tra tính hợp lệ và sự liên quan của từng trường Biểu mẫu, đảm bảo rằng tất cả các tham chiếu đều hiện tại và hoạt động. Đối với các tác vụ như tải xuống các trường Biểu mẫu dưới dạng XML hoặc thực hiện phân tích hàng loạt, việc trích xuất các trường Biểu mẫu cho phép tự động hóa, tiết kiệm thời gian và giảm thiểu công sức thủ công. Phân tích tài liệu PDF để trích xuất các trường Biểu mẫu dưới dạng XML với Aspose.PDF Cloud Python SDK.
Với Python SDK của chúng tôi, bạn có thể
- Thêm tiêu đề & chân trang của tài liệu PDF ở định dạng văn bản hoặc hình ảnh.
- Thêm bảng & tem văn bản hoặc hình ảnh vào tài liệu PDF.
- Thêm nhiều tài liệu PDF vào một tệp hiện có.
- Làm việc với các tệp đính kèm PDF, chú thích và các trường biểu mẫu.
- Áp dụng mã hóa hoặc giải mã cho tài liệu PDF và đặt mật khẩu.
- Xóa tất cả các tem & bảng từ một trang hoặc toàn bộ tài liệu PDF.
- Xóa một tem hoặc bảng cụ thể khỏi tài liệu PDF theo ID của nó.
- Thay thế một hoặc nhiều lần xuất hiện của văn bản trên một trang PDF hoặc từ toàn bộ tài liệu.
- Hỗ trợ rộng rãi cho việc chuyển đổi tài liệu PDF sang nhiều định dạng tệp khác.
- Trích xuất các yếu tố khác nhau của tệp PDF và tối ưu hóa tài liệu PDF.
- Bạn có thể thử ứng dụng miễn phí của chúng tôi để kiểm tra chức năng.
- Tài Nguyên Học Tập
- Tài Liệu
- Mã Nguồn
- Tham Khảo API
- Hỗ Trợ Sản Phẩm
- Hỗ Trợ Miễn Phí
- Hỗ Trợ Trả Phí
- Blog
- Tại Sao Chọn Aspose.PDF Cloud cho Python?
- Danh Sách Khách Hàng
- Bảo Mật