HTML JPG PDF XML DOCX
  Product Family
PDF

تحليل ملفات PDF لاستخراج الجداول في Python SDK

API لتحليل مستندات PDF لاستخراج الجداول باستخدام API Python على الخادم.

Get Started

كيفية تحليل مستندات PDF لاستخراج الجداول باستخدام Cloud Python SDK

لتحليل مستندات PDF لاستخراج الجداول عبر Cloud Python SDK ، سنستخدم Aspose.PDF Cloud Python SDK يساعد هذا الـ SDK السحابي مبرمجي Python في تطوير تطبيقات لإنشاء وتوضيح وتحرير وتحويل وتحليل ملفات PDF باستخدام لغة برمجة Python عبر Aspose.PDF REST API. ببساطة قم بإنشاء حساب في Aspose for Cloud واحصل على معلومات التطبيق الخاصة بك. بمجرد حصولك على App SID & key، تكون جاهزًا لاستخدام Aspose.PDF Cloud Python SDK. إذا كان حزمة Python مستضافة على Github، يمكنك التثبيت مباشرة من Github:

التثبيت من Github


     
    pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
     
     

خطوات تحليل ملفات PDF لاستخراج الجداول باستخدام Python SDK

يمكن لمطوري Aspose.PDF Cloud بسهولة تحليل مستندات PDF لاستخراج الجداول. يحتاج المطورون فقط لبضع أسطر من الشفرة.

  1. إنشاء كائن تكوين جديد باستخدام المفتاح السري و مفتاح التطبيق الخاص بك
  2. إنشاء كائن للاتصال بـ Cloud API
  3. تحميل ملف المستند الخاص بك
  4. تحليل مستندات PDF لاستخراج الجداول في التخزين السحابي باستخدام وظيفة get_document_tables
  5. التحقق من الاستجابة وتسجيل النتيجة
  6. تنزيل معلومات الجداول في ملف JSON محليًا إذا لزم الأمر
 

يظهر هذا الكود النموذجي تحليل مستند PDF لاستخراج الجداول


import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")


class ParseExtractTables:
    """Class for extracting tables from PDF document page using Aspose PDF Cloud API."""
    def __init__(self):
        self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)

    def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
        """Upload a PDF document to the Aspose Cloud server."""
        if self.pdf_api:
            file_path = localFolder / documentName
            try:
                if remoteFolder == None:
                    self.pdf_api.upload_file(documentName, str(file_path))
                else:
                    opts = { "folder": remoteFolder }
                    self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
                logging.info(f"File {documentName} uploaded successfully.")
            except Exception as e:
                logging.error(f"Failed to upload file: {e}")

   def extract(self, documentName: str, localFolder: Path, remoteFolder: Path):
        self.upload_document(documentName, remoteFolder)

        opts = {
            "folder": remoteFolder
        }
        respTables = self.pdf_api.get_document_tables(documentName, **opts)
        if respTables.code != 200:
            logging.error("GetTables(): Unexpected error!")
        else:
            localJsonFile = str(Path.joinpath(localFolder, "tables_objects.json"))
            with open(localJsonFile, "w", encoding="utf-8") as localFile:
                localFile.write("[\n")

                for tab in respTables.tables.list:
                    logging.info(f"GetTabels(): Table '{tab.id}' successfully extracted from the document '{documentName}'.")
                    jsText = json.dumps(tab.__dict__, ensure_ascii=False, default=str, indent=4) + ",\n\n"
                    localFile.write(jsText)
                
                localFile.write("]")
 

العمل مع تحليل الجداول في PDF عبر Python SDK

من خلال تحليل مستندات PDF لاستخراج الجداول، يمكنك تعديل محتوى الجداول حسب الحاجة. يحافظ هذا على موضع الجدول في المستندات بينما يوفر الوقت ويقلل من العمل اليدوي. تحليل مستندات PDF لاستخراج الجداول باستخدام Aspose.PDF Cloud Python SDK.

مع SDK الخاص بنا يمكنك

  • إضافة رأس وتذييل المستند بصيغة نص أو صورة.
  • إضافة جداول وأختام نص أو صورة إلى مستندات PDF.
  • إلحاق مستندات PDF متعددة إلى ملف موجود.
  • العمل مع مرفقات PDF، التوضيحات، وحقول النماذج.
  • تطبيق التشفير أو فك التشفير على مستندات PDF وتعيين كلمة مرور.
  • حذف جميع الأختام والجداول من صفحة أو مستند PDF بأكمله.
  • حذف ختم أو جدول معين من مستند PDF بواسطة معرفه.
  • استبدال حالة واحدة أو متعددة من النص في صفحة PDF أو من المستند بأكمله.
  • دعم واسع لتحويل مستندات PDF إلى تنسيقات ملفات أخرى متعددة.
  • استخراج عناصر مختلفة من ملفات PDF وجعل مستندات PDF محسنة.
  • يمكنك تجربة التطبيق المجاني لاختبار الوظيفة.

  •