HTML JPG PDF XML DOCX
  Product Family
PDF

在 Node.js SDK 中从 PDF 提取表格

使用云 Node.js SDK 处理 PDF 文档中的表格的 API

Get Started

如何通过 Node.js SDK 从 PDF 获取表格

为了从 PDF 获取表格,我们将使用 Aspose.PDF Cloud Node.js SDK。此云 SDK 协助 Node.js 程序员使用 Aspose.PDF REST API 开发基于云的 PDF 创建、注释、编辑和转换应用程序。只需在 Aspose for Cloud 创建一个账户并获取您的应用程序信息。一旦您拥有 App SID 和密钥,您就可以使用 Aspose.PDF Cloud Node.js SDK。

包管理器控制台命令


     
    npm install asposepdfcloud --save
     
     

通过云 Node.js 从 PDF 获取表格的步骤

Aspose.PDF Cloud 开发人员可以轻松地在几行代码中加载并从 PDF 获取表格。

  1. 阅读本地 PDF 文件。
  2. 上传本地 PDF 到 Aspose 云。
  3. 检索并显示所有检测到的表格。
  4. 按其 ID 检索并显示一个表格。
  5. 从 Aspose PDF Cloud 存储中下载更新后的 PDF 文件。
 

使用 Node.js 从 PDF 获取表格


    import credentials from "../../../../Credentials/credentials.json"  with { type: "json" };
    import fs from 'node:fs/promises';
    import path from 'node:path';
    import { PdfApi } from "../../../src/api/api.js";

    const configParams = {
        LOCAL_FOLDER: "C:\\Samples\\",
        PDF_DOCUMENT_NAME: "sample.pdf",
        PAGE_NUMBER: 2,                                 // Your document page number...
        TABLE_ID: "GE5TCOZSGAYCYNRQGUWDINZVFQ3DGMA",    // Your table id...
    };

    const pdfApi = new PdfApi(credentials.id, credentials.key);

    const pdfTables = {
        async uploadDocument () {
            const fileNamePath = path.join(configParams.LOCAL_FOLDER, configParams.PDF_DOCUMENT_NAME);
            const pdfFileData = await fs.readFile(fileNamePath);
            await pdfApi.uploadFile(configParams.PDF_DOCUMENT_NAME, pdfFileData);
        },
                            
        async getAllTables () {
            const resultTabs = await pdfApi.getDocumentTables(configParams.PDF_DOCUMENT_NAME);

            if (resultTabs.body.code == 200 && resultTabs.body.tables) {
                if (!Array.isArray(resultTabs.body.tables.list) || resultTabs.body.tables.list.length === 0) {
                    throw new Error("Unexpected error : tables is null or empty!!!");
                }
                this.showTablesInfo(resultTabs.body.tables.list, "All tables");
                return resultTabs.body.tables.list;
            }
            else
                console.error("Unexpected error : can't get links!!!");
        },

        async getTableById () {
            const resultTabs = await pdfApi.getTable(configParams.PDF_DOCUMENT_NAME, configParams.TABLE_ID);

            if (resultTabs.body.code == 200 && resultTabs.body.table) {
                this.showTablesInfo( [ resultTabs.body.table ], "Table by Id");
                return resultTabs.body.table;
            }
            else
                console.error("Unexpected error : can't get links!!!");
        },

        showTablesInfo(tables, prefix) {
            if (Array.isArray(tables) && tables.length > 0)
            {
                tables.forEach(function(table) {
                    console.log(prefix +" => id: '" + table.id + "', page: '" + table.pageNum + "', rows: '" + table.rowList.length + "', columns: '" + table.rowList[0].cellList.length + "'");
                });
            }
            else
                console.error("showBoormarks() error: array of tables is empty!")
        },
    }

    async function main() {
        try {
            await pdfTables.uploadDocument();
            await pdfTables.getAllTables();
            await pdfTables.getTableById();
        } catch (error) {
            console.error("Error:", error.message);
        }
    }
 

从 PDF 获取表格

从 PDF 文档中提取表格对于将静态、非结构化内容转化为可用的结构化数据至关重要。它可以实现高效的数据分析、自动化、与业务系统的集成和数字化转型。此过程节省时间,提高准确性,支持大规模文档处理,并允许在报告、应用程序和审计中轻松重复使用数据。 使用 Aspose.PDF Cloud Node.js SDK 从 PDF 文档中提取表格。

使用我们的 Node.js 库,您可以:

  • 以文本或图像格式添加 PDF 文档的页眉和页脚。
  • 向 PDF 文档添加表格和印章(文本或图像)。
  • 将多个 PDF 文档附加到现有文件。
  • 处理 PDF 附件、注释和表单字段。
  • 对 PDF 文档进行加密或解密并设置密码。
  • 从页面或整个 PDF 文档中删除所有印章和表格。
  • 按其 ID 从 PDF 文档中删除特定的印章或表格。
  • 在 PDF 页面或整个文档中替换单个或多个文本实例。
  • 广泛支持将 PDF 文档转换为各种其他文件格式。
  • 提取 PDF 文件的各种元素并优化 PDF 文档。
  • 您可以尝试我们的免费应用程序在线将表格提取到 PDF 文件中并测试该功能。