Ekstrak Tabel dari PDF di Python SDK
Ekstrak Tabel dari Dokumen PDF menggunakan Cloud Python SDK.
Get StartedCara mengekstrak Tabel dari PDF melalui Cloud Python SDK
Untuk mengekstrak tabel dari PDF, kita akan menggunakan Aspose.PDF Cloud Python SDK. Cloud SDK ini membantu pemrogram Python dalam mengembangkan aplikasi pembuat, anotator, editor, dan konverter PDF berbasis cloud menggunakan bahasa pemrograman Python melalui Aspose.PDF REST API. Cukup buat akun di Aspose for Cloud dan dapatkan informasi aplikasi Anda. Setelah Anda memiliki App SID & key, Anda siap menggunakan Aspose.PDF Cloud Python SDK. Jika paket python dihosting di Github, Anda dapat menginstalnya langsung dari Github:
Instalasi dari Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Perintah Konsol Pengelola Paket
pip install asposepdfcloud
Langkah-langkah untuk mendapatkan Tabel dari PDF melalui Python SDK
Pengembang Aspose.PDF Cloud dapat dengan mudah memuat & mengekstrak tabel dari PDF hanya dalam beberapa baris kode.
- Instal Python SDK
- Unggah dokumen PDF ke server Aspose Cloud
- Unduh dokumen PDF yang telah diproses dari server Aspose Cloud
- Dapatkan semua tabel
Ekstrak Tabel dari PDF menggunakan Python
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi, Table, Row, Cell, FontStyles, GraphInfo, TextRect, TextState, Color, BorderInfo
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class Config:
"""Configuration parameters."""
CREDENTIALS_FILE = Path(r"C:\\Projects\\ASPOSE\\Pdf.Cloud\\Credentials\\credentials.json")
LOCAL_FOLDER = Path(r"C:\Samples")
PDF_DOCUMENT_NAME = "sample.pdf"
LOCAL_RESULT_DOCUMENT_NAME = "output_sample.pdf"
PAGE_NUMBER = 2
TABLE_ID = "GE5TCOZSGAYCYNRQGUWDINZVFQ3DGMA"
class PdfTables:
""" Class for managing PDF tables using Aspose PDF Cloud API. """
def __init__(self, credentials_file: Path = Config.CREDENTIALS_FILE):
self.pdf_api = None
self._init_api(credentials_file)
def _init_api(self, credentials_file: Path):
""" Initialize the API client. """
try:
with credentials_file.open("r", encoding="utf-8") as file:
credentials = json.load(file)
api_key, app_id = credentials.get("key"), credentials.get("id")
if not api_key or not app_id:
raise ValueError("init_api(): Error: Missing API keys in the credentials file.")
self.pdf_api = PdfApi(ApiClient(api_key, app_id))
except (FileNotFoundError, json.JSONDecodeError, ValueError) as e:
logging.error(f"init_api(): Failed to load credentials: {e}")
def upload_document(self):
""" Upload a PDF document to the Aspose Cloud server. """
if self.pdf_api:
file_path = Config.LOCAL_FOLDER / Config.PDF_DOCUMENT_NAME
try:
self.pdf_api.upload_file(Config.PDF_DOCUMENT_NAME, str(file_path))
logging.info(f"upload_document(): File {Config.PDF_DOCUMENT_NAME} uploaded successfully.")
except Exception as e:
logging.error(f"upload_document(): Failed to upload file: {e}")
def _show_tables_info(self, tables, prefix):
if tables and len(tables) > 0 :
for table in tables:
logging.info(f"{prefix} => id: '{table.id}', page: '{table.page_num}', rows: '{len(table.row_list)}', columns: '{len(table.row_list[0].cell_list)}'")
else:
logging.error(f"showBoormarks() error: array of tables is empty!")
def get_all_tables(self):
if self.pdf_api:
resultTabs = self.pdf_api.get_document_tables(Config.PDF_DOCUMENT_NAME)
if resultTabs.code == 200 and resultTabs.tables:
if not resultTabs.tables.list or len(resultTabs.tables.list) == 0:
logging.error("get_all_tables(): Unexpected error - tables is null or empty!!!")
self._show_tables_info(resultTabs.tables.list, "All tables")
return resultTabs.tables.list
else:
logging.error("get_all_tables(): Unexpected error - can't get links!!!")
def get_table_by_id (self):
if self.pdf_api:
resultTabs =self.pdf_api.get_table(Config.PDF_DOCUMENT_NAME, Config.TABLE_ID)
if resultTabs.code == 200 and resultTabs.table:
self._show_tables_info( [ resultTabs.table ], "Table by Id")
return resultTabs.table
else:
logging.error("get_table_by_id(): Unexpected error - can't get links!!!")
if __name__ == "__main__":
pdf_tables = PdfTables()
pdf_tables.upload_document()
pdf_tables.get_all_tables()
pdf_tables.get_table_by_id()
Bekerja dengan Tabel dalam PDF
Tabel menyediakan format terstruktur untuk menyajikan data secara sistematis, memudahkan pembaca untuk memahami dan menganalisis informasi. Mereka juga meningkatkan daya tarik visual suatu dokumen, menambah kesan profesional dan terorganisir. Saat menangani data numerik atau komparatif, tabel meningkatkan kejelasan dengan mengelompokkan informasi terkait dalam format yang mudah dibaca. Selain itu, tabel dapat menggabungkan konten waktu nyata atau yang dihasilkan secara dinamis, seperti data dari basis data atau dasbor analitik. Ekstrak Tabel dari dokumen PDF dengan Aspose.PDF Cloud Python SDK.
Dengan pustaka Python kami Anda dapat:
- Menggabungkan dokumen PDF.
- Memisahkan File PDF.
- Mengonversi PDF ke format lain, dan sebaliknya.
- Memanipulasi Anotasi.
- Bekerja dengan Gambar dalam PDF, dll.
- Anda dapat mencoba Aplikasi gratis kami untuk menguji fungsionalitas secara online.