HTML
JPG
PDF
XML
DOCX
PDF
如何使用 Cloud Go SDK 解析 PDF 文档以提取文本
为了通过 Cloud Go SDK 解析 PDF 文档以提取文本,我们将使用 Aspose.PDF Cloud Go SDK 此 Cloud Go SDK 协助 Go 程序员使用 Go 编程语言通过 Aspose.PDF REST API 开发基于云的 PDF 创建、注释、编辑、转换和解析应用程序。使用包管理器控制台中的以下命令。
Package Manager Console Command
     
    go get -u github.com/aspose-pdf-cloud/aspose-pdf-cloud-go/v25
     
     
使用 Go SDK 解析 PDF 以提取文本的步骤
Aspose.PDF Cloud 开发人员可以轻松解析 PDF 文档以提取文本。开发人员只需几行代码。
- 使用您的应用程序密钥和密钥创建一个新的配置对象
 - 创建一个对象以连接到云 API
 - 上传您的文档文件
 - 使用 GetDocumentTextBoxFields 函数在云存储中解析 PDF 文档以提取文本
 - 检查响应并记录结果
 - 如有需要,本地下载文本框信息作为 JSON 文件
 
此示例代码展示了解析 PDF 文档以提取文本
package main
import (
	"encoding/json"
	"fmt"
	"os"
	"path"
	asposepdfcloud "github.com/aspose-pdf-cloud/aspose-pdf-cloud-go/v25"
)
// Extract text boxes form the document
func ParseExtractTextBoxes(documentName string, localFolder string, remoteFolder string) {
	// Get your AppSecret and Key from https://dashboard.aspose.cloud (free registration required).
	pdf_api := asposepdfcloud.NewPdfApiService(APP_SID, APP_KEY, "")
	args := map[string]interface{}{
		"folder": remoteFolder,
	}
	file, _ := os.Open(path.Join(localFolder, documentName))	
	_, _, _ = pdf_api.UploadFile(path.Join(remoteFolder, documentName), file, args)
	result, httpResponse, err := pdf_api.GetDocumentTextBoxFields(documentName, args)
	if err != nil {
		fmt.Println(err.Error())
	} else if httpResponse.StatusCode < 200 || httpResponse.StatusCode > 299 {
		fmt.Println("ParseExtractTextBoxes(): Failed to extract text boxes from the document.")
	} else {
		if result.Fields == nil || len(result.Fields.List) == 0 {
			fmt.Println("ParseExtractTextBoxes(): Text boxes not found in the document.")
		} else {
			resultJson := "[\n"
			for _, textBox := range result.Fields.List {
				fmt.Println("TextBox", textBox)
				jsTable, _ := json.Marshal(textBox)
				resultJson += string(jsTable) + ",\n\n"
			}
			resultJson += "]"
			fileName := path.Join(localFolder, ("parsed_taext_boxes_output_go.json"))
			f, _ := os.Create(fileName)
			_, _ = f.Write([]byte(resultJson))
			fmt.Println("File '" + fileName + "' successfully downloaded.")
		}
	}
}
通过 Go SDK 处理 PDF 中的文本解析
通过解析 PDF 文档以提取文本,您可以根据需要修改 TextBox 字段的内容。这保持了文本在文档中的位置,同时节省时间并减少手动工作。 使用 Aspose.PDF Cloud Go SDK 解析 PDF 文档以提取文本。
使用我们的 Go SDK,您可以
- 以文本或图像格式添加 PDF 文档的页眉和页脚。
 - 向 PDF 文档添加表格和文本或图像印章。
 - 将多个 PDF 文档附加到现有文件。
 - 处理 PDF 附件、注释和表单字段。
 - 对 PDF 文档应用加密或解密并设置密码。
 - 从页面或整个 PDF 文档中删除所有印章和表格。
 - 通过其 ID 从 PDF 文档中删除特定的印章或表格。
 - 替换 PDF 页面上或整个文档中的单个或多个文本实例。
 - 提供将 PDF 文档转换为各种其他文件格式的广泛支持。
 - 提取 PDF 文件的各种元素并优化 PDF 文档。
 - 您可以尝试我们的免费应用来测试功能。