HTML JPG PDF XML DOCX
  Product Family
PDF

在Node.js SDK中从PDF中提取文本

使用Cloud Node.js SDK从PDF文档中提取文本。

Get Started

如何通过Node.js SDK从PDF中提取文本

为了从PDF中提取文本,我们将使用 Aspose.PDF Cloud Node.js SDK。这个Cloud SDK帮助Node.js程序员使用Aspose.PDF REST API开发基于云的PDF创建、注释、编辑和转换应用程序。只需在Aspose for Cloud创建一个帐户并获取您的应用程序信息。一旦您拥有App SID和密钥,您就可以使用Aspose.PDF Cloud Node.js SDK。

包管理器控制台命令


     
    npm install asposepdfcloud --save
     
     

使用Node.js提取文本的步骤

Aspose.PDF Cloud开发人员可以通过几行代码轻松加载和提取PDF中的文本。

  1. 从JSON文件加载您的应用程序密钥和密钥,或以其他方式设置凭据
  2. 创建一个对象以连接到Cloud API
  3. 上传您的文档文件
  4. 使用pdfApi.getText函数执行文本提取
  5. 如果需要,下载结果
 

使用Node.js从PDF中提取文本


    async function () {
        const pdfApi = new PdfApi(credentials.id, credentials.key);
        try {
            const fileBuffer = await fs.readFile(LOCAL_FILE_NAME);
            await pdfApi.uploadFile(STORAGE_FILENAME, fileBuffer);
            const result = await pdfApi.getText(STORAGE_FILENAME, 0, 0, 0, 0);
            const lines = result.body.textOccurrences.list.map(line=>line.text).join("\n");
            await fs.writeFile("extracted.txt", lines);
        }
        catch (error) {
            console.error(error.message);
        }
    }
 

在PDF中处理文本

提取文本允许在外部应用程序中分析、组织或处理PDF中的数据。提取的文本可以被索引,使其可以在数据库或内容管理系统中搜索。 这改善了文档检索,并允许更快地访问特定信息,尤其是在大型文档档案中。通过提取文本并将其保存为更简单的格式(如纯文本或XML),用户可以减小文件大小,使其更容易共享或分发。 使用Aspose.PDF Cloud Node.js SDK从PDF文档中提取文本。

使用我们的Node.js库您可以:

  • 以文本或图像格式添加PDF文档的页眉和页脚。
  • 向PDF文档添加表格和印章(文本或图像)。
  • 将多个PDF文档附加到现有文件。
  • 处理PDF附件、注释和表单字段。
  • 对PDF文档进行加密或解密并设置密码。
  • 删除页面或整个PDF文档中的所有印章和表格。
  • 通过ID删除PDF文档中的特定印章或表格。
  • 替换PDF页面或整个文档中的单个或多个文本实例。
  • 支持将PDF文档转换为各种其他文件格式。
  • 提取PDF文件的各种元素并优化PDF文档。
  • 您可以尝试我们的免费应用在线从PDF文件中提取文本并测试功能。