HTML
JPG
PDF
XML
DOCX
PDF
如何通过Node.js SDK从PDF中提取文本
为了从PDF中提取文本,我们将使用 Aspose.PDF Cloud Node.js SDK。这个Cloud SDK帮助Node.js程序员使用Aspose.PDF REST API开发基于云的PDF创建、注释、编辑和转换应用程序。只需在Aspose for Cloud创建一个帐户并获取您的应用程序信息。一旦您拥有App SID和密钥,您就可以使用Aspose.PDF Cloud Node.js SDK。
包管理器控制台命令
npm install asposepdfcloud --save
使用Node.js提取文本的步骤
Aspose.PDF Cloud开发人员可以通过几行代码轻松加载和提取PDF中的文本。
- 从JSON文件加载您的应用程序密钥和密钥,或以其他方式设置凭据
- 创建一个对象以连接到Cloud API
- 上传您的文档文件
- 使用pdfApi.getText函数执行文本提取
- 如果需要,下载结果
使用Node.js从PDF中提取文本
async function () {
const pdfApi = new PdfApi(credentials.id, credentials.key);
try {
const fileBuffer = await fs.readFile(LOCAL_FILE_NAME);
await pdfApi.uploadFile(STORAGE_FILENAME, fileBuffer);
const result = await pdfApi.getText(STORAGE_FILENAME, 0, 0, 0, 0);
const lines = result.body.textOccurrences.list.map(line=>line.text).join("\n");
await fs.writeFile("extracted.txt", lines);
}
catch (error) {
console.error(error.message);
}
}
在PDF中处理文本
提取文本允许在外部应用程序中分析、组织或处理PDF中的数据。提取的文本可以被索引,使其可以在数据库或内容管理系统中搜索。 这改善了文档检索,并允许更快地访问特定信息,尤其是在大型文档档案中。通过提取文本并将其保存为更简单的格式(如纯文本或XML),用户可以减小文件大小,使其更容易共享或分发。 使用Aspose.PDF Cloud Node.js SDK从PDF文档中提取文本。
使用我们的Node.js库您可以:
- 以文本或图像格式添加PDF文档的页眉和页脚。
- 向PDF文档添加表格和印章(文本或图像)。
- 将多个PDF文档附加到现有文件。
- 处理PDF附件、注释和表单字段。
- 对PDF文档进行加密或解密并设置密码。
- 删除页面或整个PDF文档中的所有印章和表格。
- 通过ID删除PDF文档中的特定印章或表格。
- 替换PDF页面或整个文档中的单个或多个文本实例。
- 支持将PDF文档转换为各种其他文件格式。
- 提取PDF文件的各种元素并优化PDF文档。
- 您可以尝试我们的免费应用在线从PDF文件中提取文本并测试功能。