HTML JPG PDF XML DOCX
  Product Family
PDF

Mengurai PDF untuk Ekstraksi Tabel dalam Python SDK

API untuk mengurai dokumen PDF untuk mengekstrak tabel menggunakan API Python sisi server.

Get Started

Cara mengurai dokumen PDF untuk Ekstraksi Tabel menggunakan Cloud Python SDK

Untuk mengurai dokumen PDF untuk mengekstrak Tabel melalui Cloud Python SDK, kita akan menggunakan Aspose.PDF Cloud Python SDK Cloud SDK ini membantu pemrogram Python dalam mengembangkan aplikasi pembuat, anotator, editor, konverter, dan pengurai PDF berbasis cloud menggunakan bahasa pemrograman Python melalui Aspose.PDF REST API. Cukup buat akun di Aspose for Cloud dan dapatkan informasi aplikasi Anda. Setelah Anda memiliki App SID & kunci, Anda siap menggunakan Aspose.PDF Cloud Python SDK. Jika paket python dihosting di Github, Anda dapat menginstalnya langsung dari Github:

Instalasi dari Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
     
     

Langkah-langkah untuk mengurai PDF untuk Ekstraksi Tabel menggunakan Python SDK

Pengembang Aspose.PDF Cloud dapat dengan mudah mengurai dokumen PDF untuk ekstraksi tabel. Pengembang hanya membutuhkan beberapa baris kode.

  1. Buat objek Konfigurasi baru dengan Rahasia dan Kunci Aplikasi Anda
  2. Buat objek untuk terhubung ke Cloud API
  3. Unggah file dokumen Anda
  4. Mengurai dokumen PDF untuk ekstraksi tabel di penyimpanan cloud menggunakan fungsi get_document_tables
  5. Periksa respons dan catat hasilnya
  6. Unduh info Tabel dalam file JSON secara lokal jika diperlukan
 

Kode contoh ini menunjukkan penguraian dokumen PDF untuk ekstraksi tabel


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTables:
    """Class for extracting tables from PDF document page using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def extract(self, documentName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respTables = self.pdf_api.get_document_tables(documentName, **opts)
        if respTables.code != 200:
            logging.error("GetTables(): Unexpected error!")
        else:
            localJsonFile = str(Path.joinpath(localFolder, "tables_objects.json"))
            with open(localJsonFile, "w", encoding="utf-8") as localFile:
                localFile.write("[\n")

                for tab in respTables.tables.list:
                    logging.info(f"GetTabels(): Table '{tab.id}' successfully extracted from the document '{documentName}'.")
                    jsText = json.dumps(tab.__dict__, ensure_ascii=False, default=str, indent=4) + ",\n\n"
                    localFile.write(jsText)
                
                localFile.write("]")
 

Bekerja dengan penguraian Tabel dalam PDF melalui Python SDK

Dengan mengurai dokumen PDF untuk ekstraksi tabel, Anda dapat memodifikasi konten Tabel sesuai kebutuhan. Ini mempertahankan posisi tabel dalam dokumen sambil menghemat waktu dan mengurangi pekerjaan manual. Mengurai dokumen PDF untuk mengekstraksi tabel dengan Aspose.PDF Cloud Python SDK.

Dengan Python SDK kami Anda bisa

  • Menambahkan header & footer dokumen PDF dalam format teks atau gambar.
  • Tambahkan tabel & stempel teks atau gambar ke dokumen PDF.
  • Tambahkan beberapa dokumen PDF ke file yang sudah ada.
  • Bekerja dengan lampiran PDF, anotasi, & bidang formulir.
  • Terapkan enkripsi atau dekripsi ke dokumen PDF & tetapkan kata sandi.
  • Hapus semua stempel & tabel dari halaman atau seluruh dokumen PDF.
  • Hapus stempel atau tabel tertentu dari dokumen PDF berdasarkan ID-nya.
  • Ganti satu atau beberapa instance teks pada halaman PDF atau dari seluruh dokumen.
  • Dukungan luas untuk mengonversi dokumen PDF ke berbagai format file lainnya.
  • Ekstrak berbagai elemen dari file PDF & optimalkan dokumen PDF.
  • Anda dapat mencoba Aplikasi gratis kami untuk menguji fungsionalitas.

  •