HTML JPG PDF XML DOCX
  Product Family
PDF

Go SDK で PDF を解析してテキストを抽出

サーバーサイドの Go API を使用して PDF ドキュメントを解析してテキストを抽出するための API。

Get Started

クラウド Go SDK を使用して PDF ドキュメントを解析し、テキストを抽出する方法

クラウド Go SDK を介して PDF ドキュメントを解析してテキストを抽出するために使用します Aspose.PDF Cloud Go SDK このクラウド Go SDK は、Go プログラマーが Go プログラミング言語を使用して Aspose.PDF REST API を介してクラウドベースの PDF 作成者、注釈、編集者、コンバーター、およびパーサーアプリを開発するのに役立ちます。パッケージ マネージャー コンソールから次のコマンドを使用します。

パッケージ マネージャー コンソール コマンド


     
    go get -u github.com/aspose-pdf-cloud/aspose-pdf-cloud-go/v25
     
     

Go SDK を使用して PDF を解析してテキストを抽出する手順

Aspose.PDF Cloud 開発者は、簡単に PDF ドキュメントを解析してテキストを抽出できます。開発者はわずか数行のコードを必要とします。

  1. アプリケーション シークレットとキーを使用して新しい Configuration オブジェクトを作成
  2. クラウド API に接続するオブジェクトを作成
  3. ドキュメントファイルをアップロード
  4. GetDocumentTextBoxFields 関数を使用してクラウド ストレージで PDF ドキュメントを解析してテキストを抽出
  5. 応答をチェックして結果をログに記録
  6. 必要に応じて、テキストボックス情報を JSON ファイルとしてローカルにダウンロード
 

このサンプルコードは、PDF ドキュメントを解析してテキストを抽出する方法を示しています


package main

import (
	"encoding/json"
	"fmt"
	"os"
	"path"

	asposepdfcloud "github.com/aspose-pdf-cloud/aspose-pdf-cloud-go/v25"
)

// Extract text boxes form the document
func ParseExtractTextBoxes(documentName string, localFolder string, remoteFolder string) {
	// Get your AppSecret and Key from https://dashboard.aspose.cloud (free registration required).
	pdf_api := asposepdfcloud.NewPdfApiService(APP_SID, APP_KEY, "")

	args := map[string]interface{}{
		"folder": remoteFolder,
	}

	file, _ := os.Open(path.Join(localFolder, documentName))	
	_, _, _ = pdf_api.UploadFile(path.Join(remoteFolder, documentName), file, args)

	result, httpResponse, err := pdf_api.GetDocumentTextBoxFields(documentName, args)
	if err != nil {
		fmt.Println(err.Error())
	} else if httpResponse.StatusCode < 200 || httpResponse.StatusCode > 299 {
		fmt.Println("ParseExtractTextBoxes(): Failed to extract text boxes from the document.")
	} else {
		if result.Fields == nil || len(result.Fields.List) == 0 {
			fmt.Println("ParseExtractTextBoxes(): Text boxes not found in the document.")
		} else {
			resultJson := "[\n"
			for _, textBox := range result.Fields.List {
				fmt.Println("TextBox", textBox)
				jsTable, _ := json.Marshal(textBox)
				resultJson += string(jsTable) + ",\n\n"
			}
			resultJson += "]"
			fileName := path.Join(localFolder, ("parsed_taext_boxes_output_go.json"))
			f, _ := os.Create(fileName)
			_, _ = f.Write([]byte(resultJson))
			fmt.Println("File '" + fileName + "' successfully downloaded.")
		}
	}
}
 

Go SDK を介して PDF でテキスト解析を行う

PDF ドキュメントを解析してテキストを抽出することにより、必要に応じて TextBox フィールドの内容を変更できます。これにより、ドキュメント内のテキストの位置を維持しながら、時間を節約し、手作業を削減できます。 Aspose.PDF Cloud Go SDK で PDF ドキュメントを解析してテキストを抽出します。

Go SDK を使用すると

  • PDF ドキュメントのヘッダーとフッターをテキストまたは画像形式で追加します。
  • PDF ドキュメントにテーブルとテキストまたは画像スタンプを追加します。
  • 複数の PDF ドキュメントを既存のファイルに追加します。
  • PDF の添付ファイル、注釈、およびフォームフィールドを操作します。
  • PDF ドキュメントに暗号化または復号化を適用し、パスワードを設定します。
  • ページまたは PDF ドキュメント全体からすべてのスタンプとテーブルを削除します。
  • ID によって PDF ドキュメントから特定のスタンプまたはテーブルを削除します。
  • PDF ページまたはドキュメント全体から単一または複数のテキスト インスタンスを置き換えます。
  • PDF ドキュメントをさまざまな他のファイル形式に変換するための広範なサポート。
  • PDF ファイルのさまざまな要素を抽出し、PDF ドキュメントを最適化します。
  • 機能をテストするために 無料アプリ をお試しください。

  •