HTML JPG PDF XML DOCX
  Product Family
PDF

Node.js SDK でテキストを抽出するために PDF を解析する

サーバーサイド Node.js API を使用して PDF ドキュメントを解析し、テキストを抽出するための API。

Get Started

クラウド Node.js SDK を使用してテキストを抽出するために PDF ドキュメントを解析する方法

クラウド Node.js SDK を介してテキストを抽出するために PDF ドキュメントを解析するには、 Aspose.PDF Cloud Node.js SDK このクラウド SDK は、Node.js プログラマーが Aspose.PDF REST API を介して、Node.js プログラミング言語を使用してクラウドベースの PDF クリエーター、アノテーター、エディター、コンバーター、パーサーアプリを開発するのを支援します。Aspose for Cloud でアカウントを作成し、アプリケーション情報を取得するだけです。App SID とキーを取得したら、Aspose.PDF Cloud Node.js SDK を試す準備が整います。

パッケージ マネージャー コンソール コマンド


     
    npm install asposepdfcloud --save
     
     

Node.js SDK を使用してテキストを抽出するために PDF を解析する手順

Aspose.PDF Cloud 開発者は、PDF ドキュメントを簡単に解析してテキストを抽出できます。開発者はほんの数行のコードを必要とします。

  1. アプリケーションのシークレットとキーで新しい Configuration オブジェクトを作成する
  2. クラウド API に接続するオブジェクトを作成する
  3. ドキュメントファイルをアップロードする
  4. getDocumentTextBoxFields 関数を使用してクラウドストレージ内の PDF ドキュメントを解析し、テキストを抽出する
  5. 応答を確認し、結果をログに記録する
  6. 必要に応じて JSON ファイルでテキストボックス情報をローカルにダウンロードする
 

このサンプルコードはテキストを抽出するために PDF ドキュメントを解析する方法を示しています


import fs from 'node:fs/promises';
import path from 'node:path';

export {ParseExportTextBoxes};

const pdfApi = new PdfApi(APP_SID, APP_KEY);

const ParseExportTextBoxes = {
    async uploadDocument (documentName, localFolder, tempFolder) {
        const fileNamePath = path.join(localFolder, documentName);
        const fileData = await fs.readFile(fileNamePath);
        const storagePath = path.join(tempFolder, documentName);
        await pdfApi.uploadFile(storagePath, fileData)
            .then(() => console.log("File: '" + documentName +"' successfully uploaded."));
    },
    
    async export(documentName, localFolder, remoteFolder) {
        if ( pdfApi ) {
            await uploadDocument(documentName, localFolder, remoteFolder);

            const response = await pdfApi.getDocumentTextBoxFields( documentName, null, remoteFolder );

            if (response.body.code == 200) {
                console.log("ParseExportTextBoxes(): TextBox Fileds successfully extracted!");
                
                var result = "[\n";
                await Promise.all(
                    response.body.fields.list.map(async (textbox) => {
                        const responseText = await pdfApi.getTextBoxField(documentName, textbox.fullName, null, remoteFolder)
                            .then(function(responseTextBox){
                                result += JSON.stringify(textbox) + ",\n\n";
                            });
                        })
                    );
                result += "]";

                const filePath = path.join(localFolder, "parsed_text_boxes_output.json");
                await fs.writeFile(filePath, result);
                console.log("Downloaded: " + filePath);   
            }
            else
                console.error("ParseExportTextBoxes(): Unexpected error!") 

        }
    }
};
 

Node.js SDK を使用して PDF でテキスト解析を行う

PDF ドキュメントを解析してテキストを抽出することで、必要に応じて TextBox フィールドの内容を変更できます。これにより、手間を省き、手作業を減らしながら、ドキュメント内のテキストの位置を維持できます。 Aspose.PDF Cloud Node.js SDKを使用して、PDF ドキュメントを解析してテキストを抽出します。

Node.js SDK でできること

  • テキストまたは画像形式で PDF ドキュメントのヘッダーとフッターを追加します。
  • PDF ドキュメントにテーブルやテキストまたは画像スタンプを追加します。
  • 複数の PDF ドキュメントを既存のファイルに追加します。
  • PDF の添付ファイル、アノテーション、フォームフィールドを操作します。
  • PDF ドキュメントに暗号化または復号化を適用し、パスワードを設定します。
  • ページまたは PDF ドキュメント全体からすべてのスタンプとテーブルを削除します。
  • PDF ドキュメントから ID によって特定のスタンプまたはテーブルを削除します。
  • PDF ページまたはドキュメント全体からテキストの単一または複数のインスタンスを置換します。
  • PDF ドキュメントをさまざまな他のファイル形式に変換するための広範なサポート。
  • PDF ファイルのさまざまな要素を抽出し、PDF ドキュメントを最適化します。
  • 無料アプリで機能を試してみてください。

  •