PNG
JPG
BMP
TIFF
PDF
如何通过云端 Python SDK 从 PDF 中提取表格
为了从 PDF 中提取表格,我们将使用 Aspose.PDF Cloud Python SDK。此云端 SDK 协助 Python 程序员使用 Aspose.PDF REST API 开发基于云的 PDF 创建、注释、编辑和转换应用程序。只需在 Aspose for Cloud 创建一个账户并获取您的应用信息。一旦您拥有 App SID 和密钥,就可以开始使用 Aspose.PDF Cloud Python SDK。如果 Python 包托管在 Github 上,您可以直接从 Github 安装:
从 Github 安装
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Package Manager Console 命令
pip install asposepdfcloud
通过 Python SDK 从 PDF 中获取表格的步骤
Aspose.PDF Cloud 开发者可以轻松加载和从 PDF 中提取表格,只需几行代码。
- 安装 Python SDK
- 将 PDF 文档上传到 Aspose Cloud 服务器
- 从 Aspose Cloud 服务器下载处理后的 PDF 文档
- 获取所有表格
使用 Python 提取 PDF 中的表格
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi, Table, Row, Cell, FontStyles, GraphInfo, TextRect, TextState, Color, BorderInfo
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class Config:
"""Configuration parameters."""
CREDENTIALS_FILE = Path(r"C:\\Projects\\ASPOSE\\Pdf.Cloud\\Credentials\\credentials.json")
LOCAL_FOLDER = Path(r"C:\Samples")
PDF_DOCUMENT_NAME = "sample.pdf"
LOCAL_RESULT_DOCUMENT_NAME = "output_sample.pdf"
PAGE_NUMBER = 2
TABLE_ID = "GE5TCOZSGAYCYNRQGUWDINZVFQ3DGMA"
class PdfTables:
""" Class for managing PDF tables using Aspose PDF Cloud API. """
def __init__(self, credentials_file: Path = Config.CREDENTIALS_FILE):
self.pdf_api = None
self._init_api(credentials_file)
def _init_api(self, credentials_file: Path):
""" Initialize the API client. """
try:
with credentials_file.open("r", encoding="utf-8") as file:
credentials = json.load(file)
api_key, app_id = credentials.get("key"), credentials.get("id")
if not api_key or not app_id:
raise ValueError("init_api(): Error: Missing API keys in the credentials file.")
self.pdf_api = PdfApi(ApiClient(api_key, app_id))
except (FileNotFoundError, json.JSONDecodeError, ValueError) as e:
logging.error(f"init_api(): Failed to load credentials: {e}")
def upload_document(self):
""" Upload a PDF document to the Aspose Cloud server. """
if self.pdf_api:
file_path = Config.LOCAL_FOLDER / Config.PDF_DOCUMENT_NAME
try:
self.pdf_api.upload_file(Config.PDF_DOCUMENT_NAME, str(file_path))
logging.info(f"upload_document(): File {Config.PDF_DOCUMENT_NAME} uploaded successfully.")
except Exception as e:
logging.error(f"upload_document(): Failed to upload file: {e}")
def _show_tables_info(self, tables, prefix):
if tables and len(tables) > 0 :
for table in tables:
logging.info(f"{prefix} => id: '{table.id}', page: '{table.page_num}', rows: '{len(table.row_list)}', columns: '{len(table.row_list[0].cell_list)}'")
else:
logging.error(f"showBoormarks() error: array of tables is empty!")
def get_all_tables(self):
if self.pdf_api:
resultTabs = self.pdf_api.get_document_tables(Config.PDF_DOCUMENT_NAME)
if resultTabs.code == 200 and resultTabs.tables:
if not resultTabs.tables.list or len(resultTabs.tables.list) == 0:
logging.error("get_all_tables(): Unexpected error - tables is null or empty!!!")
self._show_tables_info(resultTabs.tables.list, "All tables")
return resultTabs.tables.list
else:
logging.error("get_all_tables(): Unexpected error - can't get links!!!")
def get_table_by_id (self):
if self.pdf_api:
resultTabs =self.pdf_api.get_table(Config.PDF_DOCUMENT_NAME, Config.TABLE_ID)
if resultTabs.code == 200 and resultTabs.table:
self._show_tables_info( [ resultTabs.table ], "Table by Id")
return resultTabs.table
else:
logging.error("get_table_by_id(): Unexpected error - can't get links!!!")
if __name__ == "__main__":
pdf_tables = PdfTables()
pdf_tables.upload_document()
pdf_tables.get_all_tables()
pdf_tables.get_table_by_id()
在 PDF 中处理表格
表格为系统化地展示数据提供了结构化的格式,使读者更容易理解和分析信息。它们还通过增加文档的专业性和组织性来提升视觉吸引力。在处理数字或比较数据时,表格通过将相关信息分组为易于阅读的格式来提高清晰度。此外,表格可以合并实时或动态生成的内容,例如来自数据库或分析仪表板的数据。 使用 Aspose.PDF Cloud Python SDK 从 PDF 文档中提取表格。
使用我们的 Python 库,您可以:
- 合并 PDF 文档。
- 拆分 PDF 文件。
- 将 PDF 转换为其他格式,反之亦然。
- 操作注释。
- 处理 PDF 中的图像等。
- 您可以试用我们的 免费应用 在线测试功能。