Mengurai PDF untuk ekstraksi Teks di Python SDK
API untuk mengurai dokumen PDF untuk mengekstrak teks menggunakan API Python sisi server.
Get StartedCara mengurai dokumen PDF untuk ekstraksi Teks menggunakan Cloud Python SDK
Untuk mengurai dokumen PDF untuk ekstraksi Teks melalui Cloud Python SDK, kita akan menggunakan Aspose.PDF Cloud Python SDK Cloud SDK ini membantu pemrogram Python dalam mengembangkan aplikasi pembuat, anotator, editor, konverter, dan parser PDF berbasis cloud menggunakan bahasa pemrograman Python melalui Aspose.PDF REST API. Cukup buat akun di Aspose untuk Cloud dan dapatkan informasi aplikasi Anda. Setelah Anda memiliki App SID & kunci, Anda siap untuk menggunakan Aspose.PDF Cloud Python SDK. Jika paket python dihosting di Github, Anda dapat menginstal langsung dari Github:
Instalasi dari Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Langkah-langkah untuk mengurai PDF untuk ekstraksi Teks menggunakan Python SDK
Pengembang Aspose.PDF Cloud dapat dengan mudah mengurai dokumen PDF untuk ekstraksi Teks. Pengembang hanya membutuhkan beberapa baris kode.
- Buat objek Konfigurasi baru dengan Rahasia dan Kunci Aplikasi Anda
- Buat objek untuk terhubung ke Cloud API
- Unggah file dokumen Anda
- Mengurai dokumen PDF untuk ekstraksi Teks dalam dokumen PDF di penyimpanan cloud menggunakan fungsi get_document_text_box_fields
- Periksa respons dan catat hasilnya
- Unduh info kotak teks dalam file JSON secara lokal jika diperlukan
Kode contoh ini menunjukkan penguraian dokumen PDF untuk ekstraksi Teks
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi
import logging
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class ParseExtractTextBox:
"""Class for extracting text box from PDF document using Aspose PDF Cloud API."""
def __init__(self):
self.pdf_api = PdfApi(ApiClient(APP_KEY, APP_SID)
def upload_document(self, documentName: str, localFolder: str, remoteFolder: str):
"""Upload a PDF document to the Aspose Cloud server."""
if self.pdf_api:
file_path = localFolder / documentName
try:
if remoteFolder == None:
self.pdf_api.upload_file(documentName, str(file_path))
else:
opts = { "folder": remoteFolder }
self.pdf_api.upload_file(remoteFolder + '/' + documentName, file_path)
logging.info(f"File {documentName} uploaded successfully.")
except Exception as e:
logging.error(f"Failed to upload file: {e}")
def Extract(self, documentName: str, texxtboxName: str, localFolder: Path, remoteFolder: Path):
self.upload_document(documentName, remoteFolder)
opts = {
"folder": remoteFolder
}
respTextBoxes = self.pdf_api.get_document_text_box_fields(documentName, **opts)
if respTextBoxes.code != 200:
logging.error("GetTextBoxes(): Unexpected error!")
else:
localJson = Path.joinpath(localFolder, "text_box_objects.json")
with open(str(localJson), "w", encoding="utf-8") as localFile:
localFile.write("[\n")
for textBox in respTextBoxes.fields.list:
x = self.helper.pdf_api.get_text_box_field(documentName, )
logging.info(f"GetTextBoxes(): TextBox field '{textBox.full_name}' successfully extracted from the document '{documentName}'.")
jsText = json.dumps(textBox.__dict__, ensure_ascii=False, default=str, indent=4) +",\n\n"
localFile.write(jsText)
localFile.write("]")
Bekerja dengan penguraian Teks dalam PDF melalui Python SDK
Dengan mengurai dokumen PDF untuk ekstraksi teks, Anda dapat memodifikasi konten bidang TextBox sesuai kebutuhan. Ini menjaga posisi teks dalam dokumen sambil menghemat waktu dan mengurangi pekerjaan manual. Mengurai dokumen PDF untuk ekstraksi teks dengan Aspose.PDF Cloud Python SDK.
Dengan SDK Python kami, Anda dapat
- Menambahkan header & footer dokumen PDF dalam format teks atau gambar.
- Menambahkan tabel & teks atau stempel gambar ke dokumen PDF.
- Menyisipkan beberapa dokumen PDF ke dalam file yang ada.
- Bekerja dengan lampiran, anotasi, & bidang formulir PDF.
- Menerapkan enkripsi atau dekripsi pada dokumen PDF & mengatur kata sandi.
- Menghapus semua stempel & tabel dari halaman atau seluruh dokumen PDF.
- Menghapus stempel atau tabel tertentu dari dokumen PDF berdasarkan ID-nya.
- Menggantikan satu atau beberapa instance teks pada halaman PDF atau dari seluruh dokumen.
- Dukungan luas untuk mengonversi dokumen PDF ke berbagai format file lainnya.
- Mengekstraksi berbagai elemen file PDF & membuat dokumen PDF dioptimalkan.
- Anda dapat mencoba Aplikasi gratis kami untuk menguji fungsionalitasnya.
- Sumber Belajar
- Dokumentasi
- Kode Sumber
- Referensi API
- Dukungan Produk
- Dukungan Gratis
- Dukungan Berbayar
- Blog
- Mengapa Aspose.PDF Cloud untuk Python?
- Daftar Pelanggan
- Keamanan