HTML JPG PDF XML DOCX
  Product Family
PDF

Java SDK で PDF のテキスト抽出を行う

サーバーサイド Java API を使用して PDF ドキュメントを解析し、テキストを抽出するための API。

Get Started

Cloud Java SDK を使用した PDF ドキュメントのテキスト抽出方法

Cloud Java SDK を使用して PDF ドキュメントのテキストを抽出するには、次のものを使用します。 Aspose.PDF Cloud Java SDK この Cloud Java SDK を使用すると、さまざまなクラウドプラットフォーム向けに、Java 言語でクラウドベースの PDF 作成、編集、変換アプリを簡単に構築できます。開く Repository パッケージマネージャーで Aspose.PDF Cloud を検索してください そしてインストールします。Package Manager Console から Maven を使用してインストールするには、以下のコマンドを使用できます。

アプリケーションの pom.xml に Aspose Cloud リポジトリを追加します

Aspose Cloud リポジトリの追加


    <repositories>
        <repository>
            <id>aspose-cloud</id>
            <name>Aspose Cloud Repository</name>
            <url>https://releases.aspose.cloud/java/repo/</url>
        </repository>
    </repositories>

API クライアントライブラリをローカルの Maven リポジトリにインストールするには、次のコマンドを実行してください。

GitHub からのインストール


    mvn clean install

代わりにリモート Maven リポジトリにデプロイするには、リポジトリの設定を構成し、実行してください。

Maven リポジトリのデプロイ


    mvn clean deploy

Java SDK を使用した PDF テキスト抽出の手順

Aspose.PDF Cloud の開発者は、数行のコードだけで PDF ドキュメントからテキストを簡単に抽出できます。

  1. アプリケーションシークレットとキーを使用して新しい Configuration オブジェクトを作成します
  2. Cloud API に接続するオブジェクトを作成します
  3. ドキュメントファイルをアップロードします
  4. getDocumentTextBoxFields 関数を使用して、クラウドストレージ内の PDF ドキュメントからテキストを抽出します
  5. 応答を確認し、結果をログに記録します
  6. 操作が成功した場合、抽出されたテキストを出力します
 

このサンプルコードは PDF ドキュメントのテキスト抽出を示しています


    import java.io.File;
    import java.nio.file.Files;
    import java.nio.file.OpenOption;
    import java.nio.file.StandardOpenOption;
    import java.nio.file.Path;
    import com.google.gson.Gson;

    import com.aspose.asposecloudpdf.api.PdfApi;
    import com.aspose.asposecloudpdf.model.TextBoxField;
    import com.aspose.asposecloudpdf.model.TextBoxFieldsResponse;

    public class ParseGetTextBoxes {
        public static void extract() {
            String REMOTE_FOLDER   = "Your_Temp_Pdf_Cloud";
	    String LOCAL_FOLDER    = "c:\\Samples";
	    String PDF_DOCUMENT    = "sample.pdf";
	    String OUTPUT_FILE     = "parsed_text_box_fields_output.json";

            try {
                PdfApi pdfApi = new PdfApi(API_KEY, API_SECRET);

                // upload local PDF file to remote storage
                File file = new File(Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString());
                pdfApi.uploadFile(Path.of(REMOTE_FOLDER , PDF_DOCUMENT).toString(), file, null);
                System.out.println(String.format("File '%s' successfully uploaded!", Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString()));

                // perform action
                TextBoxFieldsResponse response = pdfApi.getDocumentTextBoxFields(PDF_DOCUMENT, null,  REMOTE_FOLDER);
                System.out.println("TextBox fields extracted status: " + response.getStatus());

                String jsonResult = "[\n";
                for (TextBoxField fieldDef : response.getFields().getList()) {
                    String jsonFiled = new Gson().toJson(fieldDef);
                    jsonResult += jsonFiled + ",\n\n";
                }
                jsonResult +="]";

                // save json
                Path path = Path.of(LOCAL_FOLDER, OUTPUT_FILE);
                byte[] strToBytes = jsonResult.getBytes();
                Files.write(path, strToBytes, new OpenOption[] { StandardOpenOption.WRITE, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING });
		
                System.out.println("TextBox fields successfully extracted to: '" + path + "'");
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
 

Java SDK を使用した PDF のテキスト解析

PDF ドキュメントからテキストを抽出して解析することで、必要に応じて TextBox フィールドの内容を変更できます。これにより、ドキュメント内のテキスト位置を維持しながら、時間を節約し、手作業を削減できます。 Aspose.PDF Cloud Java SDK を使用して PDF ドキュメントのテキストを抽出します。

当社の Java SDK を使用すると以下が可能です

  • PDF ドキュメントのヘッダーとフッターをテキストまたは画像形式で追加できます。
  • PDF ドキュメントにテーブルやテキスト、画像スタンプを追加できます。
  • 複数の PDF ドキュメントを既存のファイルに結合できます。
  • PDF の添付ファイル、注釈、フォームフィールドを操作できます。
  • PDF文書に暗号化または復号化を適用し、パスワードを設定します。
  • ページまたはPDF文書全体からすべてのスタンプとテーブルを削除します。
  • IDで指定された特定のスタンプまたはテーブルをPDF文書から削除します。
  • PDFページ上または文書全体から単一または複数のテキストインスタンスを置換します。
  • PDF文書をさまざまな他のファイル形式に変換するための広範なサポート。
  • PDFファイルのさまざまな要素を抽出し、PDF文書を最適化します。
  • 機能をテストするために、無料アプリ を試すことができます。

  •