HTML JPG PDF XML DOCX
  Product Family
PDF

通过 Go SDK 解析 PDF 以提取文本

使用服务器端 Go API 解析 PDF 文档以提取文本的 API。

Get Started

如何使用 Cloud Go SDK 解析 PDF 文档以提取文本

为了通过 Cloud Go SDK 解析 PDF 文档以提取文本,我们将使用 Aspose.PDF Cloud Go SDK 此 Cloud Go SDK 协助 Go 程序员使用 Go 编程语言通过 Aspose.PDF REST API 开发基于云的 PDF 创建、注释、编辑、转换和解析应用程序。使用包管理器控制台中的以下命令。

Package Manager Console Command


     
    go get -u github.com/aspose-pdf-cloud/aspose-pdf-cloud-go/v25
     
     

使用 Go SDK 解析 PDF 以提取文本的步骤

Aspose.PDF Cloud 开发人员可以轻松解析 PDF 文档以提取文本。开发人员只需几行代码。

  1. 使用您的应用程序密钥和密钥创建一个新的配置对象
  2. 创建一个对象以连接到云 API
  3. 上传您的文档文件
  4. 使用 GetDocumentTextBoxFields 函数在云存储中解析 PDF 文档以提取文本
  5. 检查响应并记录结果
  6. 如有需要,本地下载文本框信息作为 JSON 文件
 

此示例代码展示了解析 PDF 文档以提取文本


package main

import (
	"encoding/json"
	"fmt"
	"os"
	"path"

	asposepdfcloud "github.com/aspose-pdf-cloud/aspose-pdf-cloud-go/v25"
)

// Extract text boxes form the document
func ParseExtractTextBoxes(documentName string, localFolder string, remoteFolder string) {
	// Get your AppSecret and Key from https://dashboard.aspose.cloud (free registration required).
	pdf_api := asposepdfcloud.NewPdfApiService(APP_SID, APP_KEY, "")

	args := map[string]interface{}{
		"folder": remoteFolder,
	}

	file, _ := os.Open(path.Join(localFolder, documentName))	
	_, _, _ = pdf_api.UploadFile(path.Join(remoteFolder, documentName), file, args)

	result, httpResponse, err := pdf_api.GetDocumentTextBoxFields(documentName, args)
	if err != nil {
		fmt.Println(err.Error())
	} else if httpResponse.StatusCode < 200 || httpResponse.StatusCode > 299 {
		fmt.Println("ParseExtractTextBoxes(): Failed to extract text boxes from the document.")
	} else {
		if result.Fields == nil || len(result.Fields.List) == 0 {
			fmt.Println("ParseExtractTextBoxes(): Text boxes not found in the document.")
		} else {
			resultJson := "[\n"
			for _, textBox := range result.Fields.List {
				fmt.Println("TextBox", textBox)
				jsTable, _ := json.Marshal(textBox)
				resultJson += string(jsTable) + ",\n\n"
			}
			resultJson += "]"
			fileName := path.Join(localFolder, ("parsed_taext_boxes_output_go.json"))
			f, _ := os.Create(fileName)
			_, _ = f.Write([]byte(resultJson))
			fmt.Println("File '" + fileName + "' successfully downloaded.")
		}
	}
}
 

通过 Go SDK 处理 PDF 中的文本解析

通过解析 PDF 文档以提取文本,您可以根据需要修改 TextBox 字段的内容。这保持了文本在文档中的位置,同时节省时间并减少手动工作。 使用 Aspose.PDF Cloud Go SDK 解析 PDF 文档以提取文本。

使用我们的 Go SDK,您可以

  • 以文本或图像格式添加 PDF 文档的页眉和页脚。
  • 向 PDF 文档添加表格和文本或图像印章。
  • 将多个 PDF 文档附加到现有文件。
  • 处理 PDF 附件、注释和表单字段。
  • 对 PDF 文档应用加密或解密并设置密码。
  • 从页面或整个 PDF 文档中删除所有印章和表格。
  • 通过其 ID 从 PDF 文档中删除特定的印章或表格。
  • 替换 PDF 页面上或整个文档中的单个或多个文本实例。
  • 提供将 PDF 文档转换为各种其他文件格式的广泛支持。
  • 提取 PDF 文件的各种元素并优化 PDF 文档。
  • 您可以尝试我们的免费应用来测试功能。

  •