HTML JPG PDF XML DOCX
  Product Family
PDF

Phân tích PDF để trích xuất Bảng trong Python SDK

API để phân tích tài liệu PDF nhằm trích xuất bảng sử dụng API Python phía máy chủ.

Get Started

Cách phân tích tài liệu PDF để trích xuất Bảng sử dụng Cloud Python SDK

Để phân tích tài liệu PDF để trích xuất Bảng qua Cloud Python SDK, chúng tôi sẽ sử dụng Aspose.PDF Cloud Python SDK SDK này hỗ trợ các lập trình viên Python phát triển ứng dụng tạo, chú thích, chỉnh sửa, chuyển đổi và phân tích PDF trên nền tảng đám mây sử dụng ngôn ngữ lập trình Python qua Aspose.PDF REST API. Chỉ cần tạo tài khoản tại Aspose for Cloud và nhận thông tin ứng dụng của bạn. Khi bạn đã có App SID & key, bạn đã sẵn sàng sử dụng Aspose.PDF Cloud Python SDK. Nếu gói python được lưu trữ trên Github, bạn có thể cài đặt trực tiếp từ Github:

Cài đặt từ Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
     
     

Các bước để phân tích PDF để trích xuất Bảng sử dụng Python SDK

Các nhà phát triển Aspose.PDF Cloud có thể dễ dàng phân tích tài liệu PDF để trích xuất Bảng. Các nhà phát triển chỉ cần vài dòng mã.

  1. Tạo một đối tượng Cấu hình mới với Ứng dụng Secret và Key của bạn
  2. Tạo một đối tượng để kết nối với Cloud API
  3. Tải lên tệp tài liệu của bạn
  4. Phân tích tài liệu PDF để trích xuất Bảng trong lưu trữ đám mây sử dụng hàm get_document_tables
  5. Kiểm tra phản hồi và ghi nhật ký kết quả
  6. Tải xuống thông tin Bảng trong tệp JSON tại máy cục bộ nếu cần
 

Mã mẫu này cho thấy cách phân tích tài liệu PDF để trích xuất Bảng


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTables:
    """Class for extracting tables from PDF document page using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def extract(self, documentName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respTables = self.pdf_api.get_document_tables(documentName, **opts)
        if respTables.code != 200:
            logging.error("GetTables(): Unexpected error!")
        else:
            localJsonFile = str(Path.joinpath(localFolder, "tables_objects.json"))
            with open(localJsonFile, "w", encoding="utf-8") as localFile:
                localFile.write("[\n")

                for tab in respTables.tables.list:
                    logging.info(f"GetTabels(): Table '{tab.id}' successfully extracted from the document '{documentName}'.")
                    jsText = json.dumps(tab.__dict__, ensure_ascii=False, default=str, indent=4) + ",\n\n"
                    localFile.write(jsText)
                
                localFile.write("]")
 

Làm việc với việc phân tích Bảng trong PDF qua Python SDK

Bằng cách phân tích tài liệu PDF để trích xuất bảng, bạn có thể chỉnh sửa nội dung của Bảng theo nhu cầu. Điều này giữ nguyên vị trí của bảng trong tài liệu trong khi tiết kiệm thời gian và giảm công việc thủ công. Phân tích tài liệu PDF để trích xuất bảng với Aspose.PDF Cloud Python SDK.

Với Python SDK của chúng tôi, bạn có thể

  • Thêm tiêu đề & chân trang tài liệu PDF ở dạng văn bản hoặc hình ảnh.
  • Thêm bảng & con dấu văn bản hoặc hình ảnh vào tài liệu PDF.
  • Ghép nhiều tài liệu PDF vào một tệp hiện có.
  • Làm việc với tệp đính kèm, chú thích & trường biểu mẫu PDF.
  • Áp dụng mã hóa hoặc giải mã cho tài liệu PDF & đặt mật khẩu.
  • Xóa tất cả con dấu & bảng từ một trang hoặc toàn bộ tài liệu PDF.
  • Xóa một con dấu hoặc bảng cụ thể từ tài liệu PDF theo ID của nó.
  • Thay thế một hoặc nhiều trường hợp văn bản trên một trang PDF hoặc từ toàn bộ tài liệu.
  • Hỗ trợ rộng rãi cho việc chuyển đổi tài liệu PDF sang nhiều định dạng tệp khác nhau.
  • Trích xuất các thành phần khác nhau của tệp PDF & tối ưu hóa tài liệu PDF.
  • Bạn có thể thử Ứng dụng miễn phí của chúng tôi để kiểm tra chức năng.

  •