HTML
JPG
PDF
XML
DOCX
PDF
如何通过 Node.js SDK 从 PDF 获取表格
为了从 PDF 获取表格,我们将使用 Aspose.PDF Cloud Node.js SDK。此云 SDK 协助 Node.js 程序员使用 Aspose.PDF REST API 开发基于云的 PDF 创建、注释、编辑和转换应用程序。只需在 Aspose for Cloud 创建一个账户并获取您的应用程序信息。一旦您拥有 App SID 和密钥,您就可以使用 Aspose.PDF Cloud Node.js SDK。
包管理器控制台命令
npm install asposepdfcloud --save
通过云 Node.js 从 PDF 获取表格的步骤
Aspose.PDF Cloud 开发人员可以轻松地在几行代码中加载并从 PDF 获取表格。
- 阅读本地 PDF 文件。
- 上传本地 PDF 到 Aspose 云。
- 检索并显示所有检测到的表格。
- 按其 ID 检索并显示一个表格。
- 从 Aspose PDF Cloud 存储中下载更新后的 PDF 文件。
使用 Node.js 从 PDF 获取表格
import credentials from "../../../../Credentials/credentials.json" with { type: "json" };
import fs from 'node:fs/promises';
import path from 'node:path';
import { PdfApi } from "../../../src/api/api.js";
const configParams = {
LOCAL_FOLDER: "C:\\Samples\\",
PDF_DOCUMENT_NAME: "sample.pdf",
PAGE_NUMBER: 2, // Your document page number...
TABLE_ID: "GE5TCOZSGAYCYNRQGUWDINZVFQ3DGMA", // Your table id...
};
const pdfApi = new PdfApi(credentials.id, credentials.key);
const pdfTables = {
async uploadDocument () {
const fileNamePath = path.join(configParams.LOCAL_FOLDER, configParams.PDF_DOCUMENT_NAME);
const pdfFileData = await fs.readFile(fileNamePath);
await pdfApi.uploadFile(configParams.PDF_DOCUMENT_NAME, pdfFileData);
},
async getAllTables () {
const resultTabs = await pdfApi.getDocumentTables(configParams.PDF_DOCUMENT_NAME);
if (resultTabs.body.code == 200 && resultTabs.body.tables) {
if (!Array.isArray(resultTabs.body.tables.list) || resultTabs.body.tables.list.length === 0) {
throw new Error("Unexpected error : tables is null or empty!!!");
}
this.showTablesInfo(resultTabs.body.tables.list, "All tables");
return resultTabs.body.tables.list;
}
else
console.error("Unexpected error : can't get links!!!");
},
async getTableById () {
const resultTabs = await pdfApi.getTable(configParams.PDF_DOCUMENT_NAME, configParams.TABLE_ID);
if (resultTabs.body.code == 200 && resultTabs.body.table) {
this.showTablesInfo( [ resultTabs.body.table ], "Table by Id");
return resultTabs.body.table;
}
else
console.error("Unexpected error : can't get links!!!");
},
showTablesInfo(tables, prefix) {
if (Array.isArray(tables) && tables.length > 0)
{
tables.forEach(function(table) {
console.log(prefix +" => id: '" + table.id + "', page: '" + table.pageNum + "', rows: '" + table.rowList.length + "', columns: '" + table.rowList[0].cellList.length + "'");
});
}
else
console.error("showBoormarks() error: array of tables is empty!")
},
}
async function main() {
try {
await pdfTables.uploadDocument();
await pdfTables.getAllTables();
await pdfTables.getTableById();
} catch (error) {
console.error("Error:", error.message);
}
}
从 PDF 获取表格
从 PDF 文档中提取表格对于将静态、非结构化内容转化为可用的结构化数据至关重要。它可以实现高效的数据分析、自动化、与业务系统的集成和数字化转型。此过程节省时间,提高准确性,支持大规模文档处理,并允许在报告、应用程序和审计中轻松重复使用数据。 使用 Aspose.PDF Cloud Node.js SDK 从 PDF 文档中提取表格。
使用我们的 Node.js 库,您可以:
- 以文本或图像格式添加 PDF 文档的页眉和页脚。
- 向 PDF 文档添加表格和印章(文本或图像)。
- 将多个 PDF 文档附加到现有文件。
- 处理 PDF 附件、注释和表单字段。
- 对 PDF 文档进行加密或解密并设置密码。
- 从页面或整个 PDF 文档中删除所有印章和表格。
- 按其 ID 从 PDF 文档中删除特定的印章或表格。
- 在 PDF 页面或整个文档中替换单个或多个文本实例。
- 广泛支持将 PDF 文档转换为各种其他文件格式。
- 提取 PDF 文件的各种元素并优化 PDF 文档。
- 您可以尝试我们的免费应用程序在线将表格提取到 PDF 文件中并测试该功能。