HTML JPG PDF XML DOCX
  Product Family
PDF

Node.js SDKでPDFからテーブルを抽出

Cloud Node.js SDKを使用してPDFドキュメント内のテーブルを操作するためのAPI

Get Started

Node.js SDKを介してPDFからテーブルを取得する方法

PDFからテーブルを取得するには、 Aspose.PDF Cloud Node.js SDKを使用します。このCloud SDKは、Node.jsプログラマーがAspose.PDF REST APIを介してクラウドベースのPDF作成、注釈付け、編集、変換アプリをNode.jsプログラミング言語で開発するのを支援します。Aspose for Cloudでアカウントを作成し、アプリケーション情報を取得してください。App SIDとキーを取得したら、Aspose.PDF Cloud Node.js SDKを使用する準備が整います。

パッケージマネージャーコンソールコマンド


     
    npm install asposepdfcloud --save
     
     

Cloud Node.jsを介してPDFからテーブルを取得する手順

Aspose.PDF Cloud開発者は、わずか数行のコードでPDFからテーブルを簡単にロードおよび取得できます。

  1. ローカルPDFファイルを読み取ります。
  2. ローカルPDFをAspose Cloudにアップロードします。
  3. 検出されたすべてのテーブルを取得して表示します。
  4. IDで指定された1つのテーブルを取得して表示します。
  5. Aspose PDF Cloudストレージから更新されたPDFファイルをダウンロードします。
 

Node.jsを使用してPDFからテーブルを取得


    import credentials from "../../../../Credentials/credentials.json"  with { type: "json" };
    import fs from 'node:fs/promises';
    import path from 'node:path';
    import { PdfApi } from "../../../src/api/api.js";

    const configParams = {
        LOCAL_FOLDER: "C:\\Samples\\",
        PDF_DOCUMENT_NAME: "sample.pdf",
        PAGE_NUMBER: 2,                                 // Your document page number...
        TABLE_ID: "GE5TCOZSGAYCYNRQGUWDINZVFQ3DGMA",    // Your table id...
    };

    const pdfApi = new PdfApi(credentials.id, credentials.key);

    const pdfTables = {
        async uploadDocument () {
            const fileNamePath = path.join(configParams.LOCAL_FOLDER, configParams.PDF_DOCUMENT_NAME);
            const pdfFileData = await fs.readFile(fileNamePath);
            await pdfApi.uploadFile(configParams.PDF_DOCUMENT_NAME, pdfFileData);
        },
                            
        async getAllTables () {
            const resultTabs = await pdfApi.getDocumentTables(configParams.PDF_DOCUMENT_NAME);

            if (resultTabs.body.code == 200 && resultTabs.body.tables) {
                if (!Array.isArray(resultTabs.body.tables.list) || resultTabs.body.tables.list.length === 0) {
                    throw new Error("Unexpected error : tables is null or empty!!!");
                }
                this.showTablesInfo(resultTabs.body.tables.list, "All tables");
                return resultTabs.body.tables.list;
            }
            else
                console.error("Unexpected error : can't get links!!!");
        },

        async getTableById () {
            const resultTabs = await pdfApi.getTable(configParams.PDF_DOCUMENT_NAME, configParams.TABLE_ID);

            if (resultTabs.body.code == 200 && resultTabs.body.table) {
                this.showTablesInfo( [ resultTabs.body.table ], "Table by Id");
                return resultTabs.body.table;
            }
            else
                console.error("Unexpected error : can't get links!!!");
        },

        showTablesInfo(tables, prefix) {
            if (Array.isArray(tables) && tables.length > 0)
            {
                tables.forEach(function(table) {
                    console.log(prefix +" => id: '" + table.id + "', page: '" + table.pageNum + "', rows: '" + table.rowList.length + "', columns: '" + table.rowList[0].cellList.length + "'");
                });
            }
            else
                console.error("showBoormarks() error: array of tables is empty!")
        },
    }

    async function main() {
        try {
            await pdfTables.uploadDocument();
            await pdfTables.getAllTables();
            await pdfTables.getTableById();
        } catch (error) {
            console.error("Error:", error.message);
        }
    }
 

PDFからテーブルを取得

PDFドキュメントからテーブルを抽出することは、静的で非構造化なコンテンツを使用可能な構造化データに変換するために不可欠です。これにより、効率的なデータ分析、自動化、ビジネスシステムとの統合、デジタルトランスフォーメーションが可能になります。このプロセスは時間を節約し、精度を向上させ、大規模なドキュメント処理をサポートし、レポート、アプリケーション、監査でデータを簡単に再利用できるようにします。 Aspose.PDF Cloud Node.js SDKを使用してPDFドキュメントからテーブルを抽出します。

Node.jsライブラリでできること:

  • PDFドキュメントのヘッダーとフッターをテキストまたは画像形式で追加します。
  • PDFドキュメントにテーブルやスタンプ(テキストまたは画像)を追加します。
  • 複数のPDFドキュメントを既存のファイルに追加します。
  • PDF添付ファイル、注釈、およびフォームフィールドを操作します。
  • PDFドキュメントに暗号化または復号化を適用し、パスワードを設定します。
  • ページまたはPDFドキュメント全体からすべてのスタンプとテーブルを削除します。
  • IDで指定されたPDFドキュメントから特定のスタンプまたはテーブルを削除します。
  • PDFページまたはドキュメント全体からテキストの単一または複数のインスタンスを置換します。
  • PDFドキュメントをさまざまな他のファイル形式に変換するための広範なサポート。
  • PDFファイルのさまざまな要素を抽出し、PDFドキュメントを最適化します。
  • 無料アプリを試して、オンラインでPDFファイルにテーブルを抽出し、機能をテストできます。