HTML JPG PDF XML DOCX
  Product Family
PDF

Java SDK で PDF のテーブル抽出を解析

サーバーサイド Java API を使用して PDF 文書を解析し、テーブルを抽出するための API

Get Started

クラウド Java SDK を使用した PDF 文書のテーブル抽出方法

Cloud Java SDK を使用して PDF 文書からテーブルを抽出するには、次のものを使用します Aspose.PDF Cloud Java SDK この Cloud Java SDK を使用すると、さまざまなクラウドプラットフォーム向けに、Java 言語でクラウドベースの PDF 作成、編集、変換アプリを簡単に構築できます。Open Repository パッケージマネージャーで Aspose.PDF Cloud を検索してください そしてインストールします。Package Manager Console から以下のコマンドを使用して Maven でインストールすることもできます。

Aspose Cloud リポジトリをアプリケーションの pom.xml に追加します

Aspose Cloud リポジトリの追加


    <repositories>
        <repository>
            <id>aspose-cloud</id>
            <name>Aspose Cloud Repository</name>
            <url>https://releases.aspose.cloud/java/repo/</url>
        </repository>
    </repositories>

API クライアントライブラリをローカルの Maven リポジトリにインストールするには、次のコマンドを実行してください:

GitHub からのインストール


    mvn clean install

代わりにリモート Maven リポジトリへデプロイするには、リポジトリの設定を構成してから実行してください:

Maven リポジトリのデプロイ


    mvn clean deploy

Java SDK を使用した PDF のテーブル抽出手順

Aspose.PDF Cloud の開発者は、簡単に PDF 文書からテーブルを抽出できます。数行のコードだけで済みます。

  1. アプリケーションのシークレットとキーを使用して新しい Configuration オブジェクトを作成します
  2. Cloud API に接続するオブジェクトを作成します
  3. ドキュメントファイルをアップロードします
  4. getDocumentTables 関数を使用して、クラウドストレージ上の PDF 文書からテーブルを抽出します
  5. 応答を確認し、結果をログに記録します
  6. 操作が成功した場合、抽出されたテーブルを出力します
 

このサンプルコードは PDF 文書のテーブル抽出を示しています


    import java.io.File;
    import java.nio.file.Files;
    import java.nio.file.OpenOption;
    import java.nio.file.StandardOpenOption;
    import java.nio.file.Path;
    import com.google.gson.Gson;

    import com.aspose.asposecloudpdf.api.PdfApi;
    import com.aspose.asposecloudpdf.model.TableRecognized;
    import com.aspose.asposecloudpdf.model.TablesRecognizedResponse;

    public class ParseGetTables {
        public static void extract() {
            String REMOTE_FOLDER   = "Your_Temp_Pdf_Cloud";
	    String LOCAL_FOLDER    = "c:\\Samples";
	    String PDF_DOCUMENT    = "sample.pdf";
	    String OUTPUT_FILE     = "parsed_tables_output.json";

            try {
                PdfApi pdfApi = new PdfApi(API_KEY, API_SECRET);

                // upload local PDF file to remote storage
                File file = new File(Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString());
                pdfApi.uploadFile(Path.of(REMOTE_FOLDER , PDF_DOCUMENT).toString(), file, null);
                System.out.println(String.format("File '%s' successfully uploaded!", Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString()));

                // perform action
                TablesRecognizedResponse response = pdfApi.getDocumentTables(PDF_DOCUMENT, null,  REMOTE_FOLDER);
                System.out.println("Tables extracted status: " + response.getStatus());

                String jsonResult = "[\n";
                for (TableRecognized tableDef : response.getTables().getList()) {
                    String jsonTable = new Gson().toJson(tableDef);
                    jsonResult += jsonTable + ",\n\n";
                }
                jsonResult +="]";

                // save json
                Path path = Path.of(LOCAL_FOLDER, OUTPUT_FILE);
                byte[] strToBytes = jsonResult.getBytes();
                Files.write(path, strToBytes, new OpenOption[] { StandardOpenOption.WRITE, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING });
            
                System.out.println("Tables successfully extracted to: '" + path + "'");
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
 

Java SDK を使用した PDF のテーブル解析の操作

PDF 文書からテーブルを抽出して解析することで、テーブルの内容を必要に応じて変更できます。これにより、文書内のテーブル位置を維持しながら、時間を節約し、手作業を削減できます。 PDF 文書を解析してテーブルを抽出するには、Aspose.PDF Cloud Java SDK を使用してください。

Java SDK でできること

  • PDF 文書のヘッダーとフッターをテキストまたは画像形式で追加できます。
  • PDF 文書にテーブルやテキスト・画像スタンプを追加できます。
  • 複数の PDF 文書を既存のファイルに結合できます。
  • PDF の添付ファイル、注釈、フォームフィールドを操作できます。
  • PDFドキュメントに暗号化または復号化を適用し、パスワードを設定します。
  • ページまたは PDF ドキュメント全体からすべてのスタンプとテーブルを削除します。
  • ID によって PDF ドキュメントから特定のスタンプまたはテーブルを削除します。
  • PDF ページ上、またはドキュメント全体のテキストを単一または複数置換します。
  • PDF ドキュメントをさまざまな他のファイル形式に変換するための包括的なサポート。
  • PDF ファイルのさまざまな要素を抽出し、PDF ドキュメントを最適化します。
  • 機能をテストするために、当社の無料アプリをお試しいただけます。

  •