HTML
JPG
PDF
XML
DOCX
PDF
Node.js SDKを使用してPDFからテキストを抽出する方法
PDFからテキストを抽出するには、 Aspose.PDF Cloud Node.js SDKを使用します。このCloud SDKは、Node.jsプログラマーがAspose.PDF REST APIを介してクラウドベースのPDF作成、注釈、編集、変換アプリを開発するのを支援します。Aspose for Cloudでアカウントを作成し、アプリケーション情報を取得します。App SIDとキーを取得したら、Aspose.PDF Cloud Node.js SDKを使用する準備が整います。
パッケージマネージャーコンソールコマンド
npm install asposepdfcloud --save
Node.jsを使用してテキストを抽出する手順
Aspose.PDF Cloudの開発者は、わずか数行のコードでPDFからテキストを簡単に読み込み、抽出できます。
- JSONファイルからアプリケーションのシークレットとキーを読み込むか、別の方法で資格情報を設定します
- クラウドAPIに接続するためのオブジェクトを作成します
- ドキュメントファイルをアップロードします
- pdfApi.getText関数を使用してテキストを抽出します
- 必要に応じて結果をダウンロードします
Node.jsを使用してPDFからテキストを抽出
async function () {
const pdfApi = new PdfApi(credentials.id, credentials.key);
try {
const fileBuffer = await fs.readFile(LOCAL_FILE_NAME);
await pdfApi.uploadFile(STORAGE_FILENAME, fileBuffer);
const result = await pdfApi.getText(STORAGE_FILENAME, 0, 0, 0, 0);
const lines = result.body.textOccurrences.list.map(line=>line.text).join("\n");
await fs.writeFile("extracted.txt", lines);
}
catch (error) {
console.error(error.message);
}
}
PDF内のテキストを操作する
テキストの抽出により、PDF内のデータを分析、整理、または外部アプリケーションで処理できます。抽出されたテキストはインデックス化され、データベースやコンテンツ管理システム全体で検索可能になります。 これにより、ドキュメントの検索が改善され、大規模なドキュメントアーカイブ内でも特定の情報へのアクセスが迅速になります。テキストを抽出してよりシンプルな形式(プレーンテキストやXMLなど)で保存することで、ファイルサイズを小さくし、共有や配布が容易になります。 Aspose.PDF Cloud Node.js SDKを使用してPDFドキュメントからテキストを抽出します。
Node.jsライブラリを使用して次のことができます:
- PDFドキュメントのヘッダーとフッターをテキストまたは画像形式で追加します。
- PDFドキュメントにテーブルやスタンプ(テキストまたは画像)を追加します。
- 複数のPDFドキュメントを既存ファイルに追加します。
- PDFの添付ファイル、注釈、フォームフィールドを操作します。
- PDFドキュメントに暗号化または復号化を適用し、パスワードを設定します。
- ページやPDFドキュメント全体からすべてのスタンプとテーブルを削除します。
- PDFドキュメントからIDで特定のスタンプまたはテーブルを削除します。
- PDFページまたはドキュメント全体からテキストの単一または複数のインスタンスを置換します。
- PDFドキュメントをさまざまなファイル形式に変換するための広範なサポート。
- PDFファイルのさまざまな要素を抽出し、PDFドキュメントを最適化します。
- 無料アプリを試して、オンラインでPDFファイルからテキストを抽出し、機能をテストできます。