استخراج الجدول من PDF في Python SDK
استخراج الجداول من مستند PDF باستخدام Cloud باستخدام Cloud Python SDK.
Get Startedكيفية استخراج الجداول من PDF عبر Cloud Python SDK
لاستخراج الجداول من PDF، سنستخدم Aspose.PDF Cloud Python SDK. هذا SDK السحابي يساعد مبرمجي بايثون في تطوير تطبيقات إنشاء وتحرير وتحويل وتوضيح PDF قائمة على السحابة باستخدام لغة البرمجة بايثون عبر Aspose.PDF REST API. ببساطة قم بإنشاء حساب في Aspose for Cloud واحصل على معلومات التطبيق الخاصة بك. بمجرد أن يكون لديك App SID & مفتاح، ستكون جاهزًا لاستخدام Aspose.PDF Cloud Python SDK. إذا كان حزمة بايثون مستضافة على Github، يمكنك التثبيت مباشرة من Github:
التثبيت من Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
أمر وحدة تحكم مدير الحزم
pip install asposepdfcloud
خطوات الحصول على الجداول من PDF عبر Python SDK
يمكن لمطوري Aspose.PDF Cloud تحميل واستخراج الجداول بسهولة من PDF في بضعة أسطر من الشفرة.
- تثبيت Python SDK
- تحميل مستند PDF إلى خادم Aspose Cloud
- تنزيل مستند PDF المعالج من خادم Aspose Cloud
- الحصول على جميع الجداول
استخراج الجداول من PDF باستخدام Python
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi, Table, Row, Cell, FontStyles, GraphInfo, TextRect, TextState, Color, BorderInfo
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class Config:
"""Configuration parameters."""
CREDENTIALS_FILE = Path(r"C:\\Projects\\ASPOSE\\Pdf.Cloud\\Credentials\\credentials.json")
LOCAL_FOLDER = Path(r"C:\Samples")
PDF_DOCUMENT_NAME = "sample.pdf"
LOCAL_RESULT_DOCUMENT_NAME = "output_sample.pdf"
PAGE_NUMBER = 2
TABLE_ID = "GE5TCOZSGAYCYNRQGUWDINZVFQ3DGMA"
class PdfTables:
""" Class for managing PDF tables using Aspose PDF Cloud API. """
def __init__(self, credentials_file: Path = Config.CREDENTIALS_FILE):
self.pdf_api = None
self._init_api(credentials_file)
def _init_api(self, credentials_file: Path):
""" Initialize the API client. """
try:
with credentials_file.open("r", encoding="utf-8") as file:
credentials = json.load(file)
api_key, app_id = credentials.get("key"), credentials.get("id")
if not api_key or not app_id:
raise ValueError("init_api(): Error: Missing API keys in the credentials file.")
self.pdf_api = PdfApi(ApiClient(api_key, app_id))
except (FileNotFoundError, json.JSONDecodeError, ValueError) as e:
logging.error(f"init_api(): Failed to load credentials: {e}")
def upload_document(self):
""" Upload a PDF document to the Aspose Cloud server. """
if self.pdf_api:
file_path = Config.LOCAL_FOLDER / Config.PDF_DOCUMENT_NAME
try:
self.pdf_api.upload_file(Config.PDF_DOCUMENT_NAME, str(file_path))
logging.info(f"upload_document(): File {Config.PDF_DOCUMENT_NAME} uploaded successfully.")
except Exception as e:
logging.error(f"upload_document(): Failed to upload file: {e}")
def _show_tables_info(self, tables, prefix):
if tables and len(tables) > 0 :
for table in tables:
logging.info(f"{prefix} => id: '{table.id}', page: '{table.page_num}', rows: '{len(table.row_list)}', columns: '{len(table.row_list[0].cell_list)}'")
else:
logging.error(f"showBoormarks() error: array of tables is empty!")
def get_all_tables(self):
if self.pdf_api:
resultTabs = self.pdf_api.get_document_tables(Config.PDF_DOCUMENT_NAME)
if resultTabs.code == 200 and resultTabs.tables:
if not resultTabs.tables.list or len(resultTabs.tables.list) == 0:
logging.error("get_all_tables(): Unexpected error - tables is null or empty!!!")
self._show_tables_info(resultTabs.tables.list, "All tables")
return resultTabs.tables.list
else:
logging.error("get_all_tables(): Unexpected error - can't get links!!!")
def get_table_by_id (self):
if self.pdf_api:
resultTabs =self.pdf_api.get_table(Config.PDF_DOCUMENT_NAME, Config.TABLE_ID)
if resultTabs.code == 200 and resultTabs.table:
self._show_tables_info( [ resultTabs.table ], "Table by Id")
return resultTabs.table
else:
logging.error("get_table_by_id(): Unexpected error - can't get links!!!")
if __name__ == "__main__":
pdf_tables = PdfTables()
pdf_tables.upload_document()
pdf_tables.get_all_tables()
pdf_tables.get_table_by_id()
العمل مع الجداول في PDF
توفر الجداول تنسيقًا منظمًا لتقديم البيانات بشكل منهجي، مما يسهل على القراء فهم وتحليل المعلومات. كما أنها تعزز الجاذبية البصرية للمستند، مما يضيف الاحترافية والتنظيم. عند التعامل مع البيانات الرقمية أو المقارنة، تحسن الجداول من الوضوح عن طريق تجميع المعلومات ذات الصلة في تنسيق سهل القراءة. بالإضافة إلى ذلك، يمكن للجداول دمج المحتوى المباشر أو المحتوى الذي يتم إنشاؤه ديناميكيًا، مثل البيانات من قواعد البيانات أو لوحات تحكم التحليلات. استخراج الجدول من مستندات PDF باستخدام Aspose.PDF Cloud Python SDK.
مع مكتبة بايثون الخاصة بنا يمكنك:
- دمج مستندات PDF.
- تقسيم ملفات PDF.
- تحويل PDF إلى صيغ أخرى، والعكس بالعكس.
- معالجة التعليقات التوضيحية.
- العمل مع الصور في PDF، إلخ.
- يمكنك تجربة التطبيق المجاني لاختبار الوظائف عبر الإنترنت.