在Node.js SDK中从PDF中提取文本

使用Cloud Node.js SDK从PDF文档中提取文本。

Get Started

如何通过Node.js SDK从PDF中提取文本

为了从PDF中提取文本,我们将使用 Aspose.PDF Cloud Node.js SDK。这个Cloud SDK帮助Node.js程序员使用Aspose.PDF REST API开发基于云的PDF创建、注释、编辑和转换应用程序。只需在Aspose for Cloud创建一个帐户并获取您的应用程序信息。一旦您拥有App SID和密钥,您就可以使用Aspose.PDF Cloud Node.js SDK。

包管理器控制台命令


     
    npm install asposepdfcloud --save
     
     

使用Node.js提取文本的步骤

Aspose.PDF Cloud开发人员可以通过几行代码轻松加载和提取PDF中的文本。

  1. 从JSON文件加载您的应用程序密钥和密钥,或以其他方式设置凭据
  2. 创建一个对象以连接到Cloud API
  3. 上传您的文档文件
  4. 使用pdfApi.getText函数执行文本提取
  5. 如果需要,下载结果
 

使用Node.js从PDF中提取文本


    async function () {
        const pdfApi = new PdfApi(credentials.id, credentials.key);
        try {
            const fileBuffer = await fs.readFile(LOCAL_FILE_NAME);
            await pdfApi.uploadFile(STORAGE_FILENAME, fileBuffer);
            const result = await pdfApi.getText(STORAGE_FILENAME, 0, 0, 0, 0);
            const lines = result.body.textOccurrences.list.map(line=>line.text).join("\n");
            await fs.writeFile("extracted.txt", lines);
        }
        catch (error) {
            console.error(error.message);
        }
    }
 

在PDF中处理文本

提取文本允许在外部应用程序中分析、组织或处理PDF中的数据。提取的文本可以被索引,使其可以在数据库或内容管理系统中搜索。 这改善了文档检索,并允许更快地访问特定信息,尤其是在大型文档档案中。通过提取文本并将其保存为更简单的格式(如纯文本或XML),用户可以减小文件大小,使其更容易共享或分发。 使用Aspose.PDF Cloud Node.js SDK从PDF文档中提取文本。

使用我们的Node.js库您可以:

  • 以文本或图像格式添加PDF文档的页眉和页脚。
  • 向PDF文档添加表格和印章(文本或图像)。
  • 将多个PDF文档附加到现有文件。
  • 处理PDF附件、注释和表单字段。
  • 对PDF文档进行加密或解密并设置密码。
  • 删除页面或整个PDF文档中的所有印章和表格。
  • 通过ID删除PDF文档中的特定印章或表格。
  • 替换PDF页面或整个文档中的单个或多个文本实例。
  • 支持将PDF文档转换为各种其他文件格式。
  • 提取PDF文件的各种元素并优化PDF文档。
  • 您可以尝试我们的免费应用在线从PDF文件中提取文本并测试功能。