HTML
JPG
PDF
XML
DOCX
PDF
如何使用 Cloud Go SDK 解析 PDF 文档以提取文本
为了通过 Cloud Go SDK 解析 PDF 文档以提取文本,我们将使用 Aspose.PDF Cloud Go SDK 此 Cloud Go SDK 协助 Go 程序员使用 Go 编程语言通过 Aspose.PDF REST API 开发基于云的 PDF 创建、注释、编辑、转换和解析应用程序。使用包管理器控制台中的以下命令。
Package Manager Console Command
go get -u github.com/aspose-pdf-cloud/aspose-pdf-cloud-go/v25
使用 Go SDK 解析 PDF 以提取文本的步骤
Aspose.PDF Cloud 开发人员可以轻松解析 PDF 文档以提取文本。开发人员只需几行代码。
- 使用您的应用程序密钥和密钥创建一个新的配置对象
- 创建一个对象以连接到云 API
- 上传您的文档文件
- 使用 GetDocumentTextBoxFields 函数在云存储中解析 PDF 文档以提取文本
- 检查响应并记录结果
- 如有需要,本地下载文本框信息作为 JSON 文件
此示例代码展示了解析 PDF 文档以提取文本
package main
import (
"encoding/json"
"fmt"
"os"
"path"
asposepdfcloud "github.com/aspose-pdf-cloud/aspose-pdf-cloud-go/v25"
)
// Extract text boxes form the document
func ParseExtractTextBoxes(documentName string, localFolder string, remoteFolder string) {
// Get your AppSecret and Key from https://dashboard.aspose.cloud (free registration required).
pdf_api := asposepdfcloud.NewPdfApiService(APP_SID, APP_KEY, "")
args := map[string]interface{}{
"folder": remoteFolder,
}
file, _ := os.Open(path.Join(localFolder, documentName))
_, _, _ = pdf_api.UploadFile(path.Join(remoteFolder, documentName), file, args)
result, httpResponse, err := pdf_api.GetDocumentTextBoxFields(documentName, args)
if err != nil {
fmt.Println(err.Error())
} else if httpResponse.StatusCode < 200 || httpResponse.StatusCode > 299 {
fmt.Println("ParseExtractTextBoxes(): Failed to extract text boxes from the document.")
} else {
if result.Fields == nil || len(result.Fields.List) == 0 {
fmt.Println("ParseExtractTextBoxes(): Text boxes not found in the document.")
} else {
resultJson := "[\n"
for _, textBox := range result.Fields.List {
fmt.Println("TextBox", textBox)
jsTable, _ := json.Marshal(textBox)
resultJson += string(jsTable) + ",\n\n"
}
resultJson += "]"
fileName := path.Join(localFolder, ("parsed_taext_boxes_output_go.json"))
f, _ := os.Create(fileName)
_, _ = f.Write([]byte(resultJson))
fmt.Println("File '" + fileName + "' successfully downloaded.")
}
}
}
通过 Go SDK 处理 PDF 中的文本解析
通过解析 PDF 文档以提取文本,您可以根据需要修改 TextBox 字段的内容。这保持了文本在文档中的位置,同时节省时间并减少手动工作。 使用 Aspose.PDF Cloud Go SDK 解析 PDF 文档以提取文本。
使用我们的 Go SDK,您可以
- 以文本或图像格式添加 PDF 文档的页眉和页脚。
- 向 PDF 文档添加表格和文本或图像印章。
- 将多个 PDF 文档附加到现有文件。
- 处理 PDF 附件、注释和表单字段。
- 对 PDF 文档应用加密或解密并设置密码。
- 从页面或整个 PDF 文档中删除所有印章和表格。
- 通过其 ID 从 PDF 文档中删除特定的印章或表格。
- 替换 PDF 页面上或整个文档中的单个或多个文本实例。
- 提供将 PDF 文档转换为各种其他文件格式的广泛支持。
- 提取 PDF 文件的各种元素并优化 PDF 文档。
- 您可以尝试我们的免费应用来测试功能。