Phân tích PDF để trích xuất Văn bản trong Python SDK
API để phân tích tài liệu PDF nhằm trích xuất văn bản bằng API Python phía máy chủ.
Get StartedCách phân tích tài liệu PDF để trích xuất Văn bản bằng Cloud Python SDK
Để phân tích tài liệu PDF để trích xuất Văn bản qua Cloud Python SDK, chúng tôi sẽ sử dụng Aspose.PDF Cloud Python SDK Cloud SDK này hỗ trợ các lập trình viên Python phát triển ứng dụng tạo, chú thích, chỉnh sửa, chuyển đổi và phân tích PDF trên nền tảng đám mây bằng ngôn ngữ lập trình Python qua Aspose.PDF REST API. Đơn giản tạo một tài khoản tại Aspose for Cloud và lấy thông tin ứng dụng của bạn. Khi bạn đã có App SID & key, bạn đã sẵn sàng để thử Aspose.PDF Cloud Python SDK. Nếu gói python được lưu trữ trên Github, bạn có thể cài đặt trực tiếp từ Github:
Cài đặt từ Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Các bước để phân tích PDF để trích xuất Văn bản bằng Python SDK
Các nhà phát triển Aspose.PDF Cloud có thể dễ dàng phân tích tài liệu PDF để trích xuất Văn bản. Các nhà phát triển chỉ cần vài dòng mã.
- Tạo một đối tượng Cấu hình mới với Khóa và Mật khẩu Ứng dụng của bạn
- Tạo một đối tượng để kết nối với API Đám mây
- Tải lên tập tin tài liệu của bạn
- Phân tích tài liệu PDF để trích xuất Văn bản trong tài liệu PDF trên lưu trữ đám mây bằng hàm get_document_text_box_fields
- Kiểm tra phản hồi và ghi lại kết quả
- Tải xuống thông tin Hộp Văn bản trong tập tin JSON cục bộ nếu cần
Mã mẫu này cho thấy cách phân tích tài liệu PDF để trích xuất Văn bản
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class ParseExtractTextBox:
"""Class for extracting text box from PDF document using Aspose PDF Cloud API."""
def __init__(self):
self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)
def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
"""Upload a PDF document to the Aspose Cloud server."""
if self.pdf_api:
file_path = localFolder / documentName
try:
if remoteFolder == None:
self.pdf_api.upload_file(documentName, str(file_path))
else:
opts = { "folder": remoteFolder }
self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
logging.info(f"File {documentName} uploaded successfully.")
except Exception as e:
logging.error(f"Failed to upload file: {e}")
def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
self.upload_document(documentName, remoteFolder)
opts = {
"folder": remoteFolder
}
respTextBoxes = self.pdf_api.get_document_text_box_fields(documentName, **opts)
if respTextBoxes.code != 200:
logging.error("GetTextBoxes(): Unexpected error!")
else:
localJson = Path.joinpath(localFolder, "text_box_objects.json")
with open(str(localJson), "w", encoding="utf-8") as localFile:
localFile.write("[\n")
for textBox in respTextBoxes.fields.list:
x = self.helper.pdf_api.get_text_box_field(documentName, )
logging.info(f"GetTextBoxes(): TextBox field '{textBox.full_name}' successfully extracted from the document '{documentName}'.")
jsText = json.dumps(textBox.__dict__, ensure_ascii=False, default=str, indent=4) +",\n\n"
localFile.write(jsText)
localFile.write("]")
Làm việc với phân tích Văn bản trong PDF qua Python SDK
Bằng cách phân tích tài liệu PDF để trích xuất văn bản, bạn có thể chỉnh sửa nội dung của các trường TextBox theo yêu cầu. Điều này duy trì vị trí của văn bản trong tài liệu đồng thời tiết kiệm thời gian và giảm công việc thủ công. Phân tích tài liệu PDF để trích xuất văn bản với Aspose.PDF Cloud Python SDK.
Với Python SDK của chúng tôi, bạn có thể
- Thêm tiêu đề & chân trang của tài liệu PDF ở định dạng văn bản hoặc hình ảnh.
- Thêm bảng & tem văn bản hoặc hình ảnh vào tài liệu PDF.
- Ghép nhiều tài liệu PDF vào một tập tin hiện có.
- Làm việc với các tệp đính kèm, chú thích & trường biểu mẫu PDF.
- Áp dụng mã hóa hoặc giải mã cho tài liệu PDF & đặt mật khẩu.
- Xóa tất cả các tem & bảng khỏi một trang hoặc toàn bộ tài liệu PDF.
- Xóa một tem hoặc bảng cụ thể khỏi tài liệu PDF bằng ID của nó.
- Thay thế một hoặc nhiều lần xuất hiện của văn bản trên một trang PDF hoặc từ toàn bộ tài liệu.
- Hỗ trợ rộng rãi cho việc chuyển đổi tài liệu PDF sang nhiều định dạng tệp khác nhau.
- Trích xuất các yếu tố khác nhau của tập tin PDF & tối ưu hóa tài liệu PDF.
- Bạn có thể thử Ứng dụng miễn phí của chúng tôi để kiểm tra chức năng.
- Tài Nguyên Học Tập
- Tài Liệu
- Mã Nguồn
- Tham Khảo API
- Hỗ Trợ Sản Phẩm
- Hỗ Trợ Miễn Phí
- Hỗ Trợ Trả Phí
- Blog
- Tại Sao Chọn Aspose.PDF Cloud cho Python?
- Danh Sách Khách Hàng
- Bảo Mật