PNG
JPG
BMP
TIFF
PDF
Cloud Python SDKを使用してPDFからテーブルを抽出する方法
PDFからテーブルを抽出するために、 Aspose.PDF Cloud Python SDKを使用します。このCloud SDKは、PythonプログラマーがAspose.PDF REST APIを介してクラウドベースのPDF作成、注釈付け、編集、変換アプリを開発するのを支援します。Aspose for Cloudでアカウントを作成し、アプリケーション情報を取得します。App SID & キーを取得したら、Aspose.PDF Cloud Python SDKを使用する準備が整います。PythonパッケージがGithubにホストされている場合、直接Githubからインストールできます:
Githubからのインストール
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
パッケージマネージャーコンソールコマンド
pip install asposepdfcloud
Python SDKを使用してPDFからテーブルを取得する手順
Aspose.PDF Cloud開発者は、わずか数行のコードでPDFから簡単にテーブルを読み込み、抽出できます。
- Python SDKをインストール
- PDFドキュメントをAspose Cloudサーバーにアップロード
- 処理されたPDFドキュメントをAspose Cloudサーバーからダウンロード
- すべてのテーブルを取得
Pythonを使用してPDFからテーブルを抽出
import shutil
import json
import logging
from pathlib import Path
from asposepdfcloud import ApiClient, PdfApi, Table, Row, Cell, FontStyles, GraphInfo, TextRect, TextState, Color, BorderInfo
# Configure logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
class Config:
"""Configuration parameters."""
CREDENTIALS_FILE = Path(r"C:\\Projects\\ASPOSE\\Pdf.Cloud\\Credentials\\credentials.json")
LOCAL_FOLDER = Path(r"C:\Samples")
PDF_DOCUMENT_NAME = "sample.pdf"
LOCAL_RESULT_DOCUMENT_NAME = "output_sample.pdf"
PAGE_NUMBER = 2
TABLE_ID = "GE5TCOZSGAYCYNRQGUWDINZVFQ3DGMA"
class PdfTables:
""" Class for managing PDF tables using Aspose PDF Cloud API. """
def __init__(self, credentials_file: Path = Config.CREDENTIALS_FILE):
self.pdf_api = None
self._init_api(credentials_file)
def _init_api(self, credentials_file: Path):
""" Initialize the API client. """
try:
with credentials_file.open("r", encoding="utf-8") as file:
credentials = json.load(file)
api_key, app_id = credentials.get("key"), credentials.get("id")
if not api_key or not app_id:
raise ValueError("init_api(): Error: Missing API keys in the credentials file.")
self.pdf_api = PdfApi(ApiClient(api_key, app_id))
except (FileNotFoundError, json.JSONDecodeError, ValueError) as e:
logging.error(f"init_api(): Failed to load credentials: {e}")
def upload_document(self):
""" Upload a PDF document to the Aspose Cloud server. """
if self.pdf_api:
file_path = Config.LOCAL_FOLDER / Config.PDF_DOCUMENT_NAME
try:
self.pdf_api.upload_file(Config.PDF_DOCUMENT_NAME, str(file_path))
logging.info(f"upload_document(): File {Config.PDF_DOCUMENT_NAME} uploaded successfully.")
except Exception as e:
logging.error(f"upload_document(): Failed to upload file: {e}")
def _show_tables_info(self, tables, prefix):
if tables and len(tables) > 0 :
for table in tables:
logging.info(f"{prefix} => id: '{table.id}', page: '{table.page_num}', rows: '{len(table.row_list)}', columns: '{len(table.row_list[0].cell_list)}'")
else:
logging.error(f"showBoormarks() error: array of tables is empty!")
def get_all_tables(self):
if self.pdf_api:
resultTabs = self.pdf_api.get_document_tables(Config.PDF_DOCUMENT_NAME)
if resultTabs.code == 200 and resultTabs.tables:
if not resultTabs.tables.list or len(resultTabs.tables.list) == 0:
logging.error("get_all_tables(): Unexpected error - tables is null or empty!!!")
self._show_tables_info(resultTabs.tables.list, "All tables")
return resultTabs.tables.list
else:
logging.error("get_all_tables(): Unexpected error - can't get links!!!")
def get_table_by_id (self):
if self.pdf_api:
resultTabs =self.pdf_api.get_table(Config.PDF_DOCUMENT_NAME, Config.TABLE_ID)
if resultTabs.code == 200 and resultTabs.table:
self._show_tables_info( [ resultTabs.table ], "Table by Id")
return resultTabs.table
else:
logging.error("get_table_by_id(): Unexpected error - can't get links!!!")
if __name__ == "__main__":
pdf_tables = PdfTables()
pdf_tables.upload_document()
pdf_tables.get_all_tables()
pdf_tables.get_table_by_id()
PDF内のテーブルを操作
テーブルはデータを体系的に提示するための構造化フォーマットを提供し、読者が情報を理解し分析しやすくします。また、ドキュメントの視覚的な魅力を高め、専門性と組織性を追加します。数値データや比較データを扱う際、テーブルは関連情報を読みやすいフォーマットでグループ化することで明確さを向上させます。さらに、テーブルはデータベースや分析ダッシュボードからのリアルタイムまたは動的に生成されたコンテンツを組み込むことができます。 Aspose.PDF Cloud Python SDKを使用してPDFドキュメントからテーブルを抽出します。
Pythonライブラリを使用してできること:
- PDFドキュメントを結合。
- PDFファイルを分割。
- PDFを他のフォーマットに変換、またその逆も。
- 注釈を操作。
- PDF内の画像を操作、など。
- 無料アプリを試して、オンラインで機能をテストできます。