تحليل ملفات PDF لاستخراج النصوص في Python SDK
API لتحليل مستندات PDF لاستخراج النصوص باستخدام API Python على الخادم.
Get Startedكيفية تحليل مستندات PDF لاستخراج النصوص باستخدام Cloud Python SDK
لتحليل مستندات PDF لاستخراج النصوص عبر Cloud Python SDK، سنستخدم Aspose.PDF Cloud Python SDK يساعد هذا SDK السحابي مبرمجي بايثون في تطوير تطبيقات إنشاء، وتعليق، وتحرير، وتحويل، وتحليل PDF المعتمدة على السحابة باستخدام لغة برمجة بايثون عبر Aspose.PDF REST API. ببساطة قم بإنشاء حساب في Aspose for Cloud واحصل على معلومات التطبيق الخاصة بك. بمجرد حصولك على SID التطبيق والمفتاح، ستكون جاهزًا لاستخدام Aspose.PDF Cloud Python SDK. إذا كان الحزمة البايثونية موجودة على Github، يمكنك التثبيت مباشرة من Github:
التثبيت من Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
خطوات لتحليل ملفات PDF لاستخراج النصوص باستخدام Python SDK
يمكن لمطوري Aspose.PDF Cloud بسهولة تحليل مستندات PDF لاستخراج النصوص. يحتاج المطورون فقط إلى بضع سطور من التعليمات البرمجية.
- قم بإنشاء كائن تكوين جديد باستخدام السر والمفتاح الخاصين بتطبيقك
- قم بإنشاء كائن للاتصال بـ Cloud API
- قم بتحميل ملف مستندك
- قم بتحليل مستندات PDF لاستخراج النصوص في مستند PDF على تخزين السحابة باستخدام وظيفة get_document_text_box_fields
- تحقق من الاستجابة وسجل النتيجة
- قم بتنزيل معلومات مربع النص في ملف JSON محليًا إذا لزم الأمر
يعرض هذا الرمز المثال تحليل مستند PDF لاستخراج النصوص
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class ParseExtractTextBox:
"""Class for extracting text box from PDF document using Aspose PDF Cloud API."""
def __init__(self):
self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)
def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
"""Upload a PDF document to the Aspose Cloud server."""
if self.pdf_api:
file_path = localFolder / documentName
try:
if remoteFolder == None:
self.pdf_api.upload_file(documentName, str(file_path))
else:
opts = { "folder": remoteFolder }
self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
logging.info(f"File {documentName} uploaded successfully.")
except Exception as e:
logging.error(f"Failed to upload file: {e}")
def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
self.upload_document(documentName, remoteFolder)
opts = {
"folder": remoteFolder
}
respTextBoxes = self.pdf_api.get_document_text_box_fields(documentName, **opts)
if respTextBoxes.code != 200:
logging.error("GetTextBoxes(): Unexpected error!")
else:
localJson = Path.joinpath(localFolder, "text_box_objects.json")
with open(str(localJson), "w", encoding="utf-8") as localFile:
localFile.write("[\n")
for textBox in respTextBoxes.fields.list:
x = self.helper.pdf_api.get_text_box_field(documentName, )
logging.info(f"GetTextBoxes(): TextBox field '{textBox.full_name}' successfully extracted from the document '{documentName}'.")
jsText = json.dumps(textBox.__dict__, ensure_ascii=False, default=str, indent=4) +",\n\n"
localFile.write(jsText)
localFile.write("]")
العمل مع تحليل النصوص في PDF عبر Python SDK
عن طريق تحليل مستندات PDF لاستخراج النصوص، يمكنك تعديل محتوى حقول TextBox حسب الحاجة. يحافظ هذا على موضع النص في المستندات مع توفير الوقت وتقليل العمل اليدوي. قم بتحليل مستندات PDF لاستخراج النصوص باستخدام Aspose.PDF Cloud Python SDK.
مع Python SDK الخاص بنا يمكنك
- إضافة رأس وتذييل المستند PDF بصيغة نص أو صورة.
- إضافة الجداول والطوابع النصية أو الصور إلى مستندات PDF.
- إلحاق مستندات PDF متعددة بملف موجود.
- العمل مع مرفقات PDF، التعليقات التوضيحية، وحقول النماذج.
- تطبيق التشفير أو فك التشفير على مستندات PDF وتعيين كلمة مرور.
- حذف جميع الطوابع والجداول من صفحة أو مستند PDF بالكامل.
- حذف طابع أو جدول معين من مستند PDF بواسطة معرفه.
- استبدال مثيل واحد أو مثيلات متعددة من النص على صفحة PDF أو من المستند بالكامل.
- دعم واسع لتحويل مستندات PDF إلى صيغ ملفات أخرى متنوعة.
- استخراج عناصر مختلفة من ملفات PDF وجعل مستندات PDF محسنة.
- يمكنك تجربة التطبيق المجاني لاختبار الوظائف.
- موارد التعلم
- التوثيق
- كود المصدر
- مراجع API
- لماذا Aspose.PDF Cloud لبايثون؟
- قائمة العملاء
- الأمان