HTML
JPG
PDF
XML
DOCX
PDF
如何使用云 Java SDK 按名称提取文本来解析 PDF 文档
要通过云 Java SDK 按名称提取文本解析 PDF 文档,我们将使用 Aspose.PDF Cloud Java SDK 此云 Java SDK 让您能够轻松使用 Java 语言为各种云平台构建基于云的 PDF 创建、编辑和转换应用程序。打开 Repository 在包管理器中搜索 Aspose.PDF Cloud 并安装。您也可以使用以下来自包管理器控制台的命令,通过 Maven 安装它。
在您的应用程序 pom.xml 中添加 Aspose Cloud 仓库
添加 Aspose Cloud 仓库
<repositories>
<repository>
<id>aspose-cloud</id>
<name>Aspose Cloud Repository</name>
<url>https://releases.aspose.cloud/java/repo/</url>
</repository>
</repositories>
要将 API 客户端库安装到本地 Maven 仓库,只需执行以下操作:
从 Github 安装
mvn clean install
如果要将其部署到远程 Maven 仓库,请配置仓库设置并执行以下操作:
部署 Maven 仓库
mvn clean deploy
使用 Java SDK 按名称提取文本的 PDF 解析步骤
Aspose.PDF Cloud 开发者可以轻松按名称提取 PDF 文档的文本。开发者只需几行代码。
- 使用您的应用程序机密和密钥创建新的 Configuration 对象
- 创建一个对象以连接到云 API
- 上传您的文档文件
- 使用 etTextBoxField 函数在云存储中按名称提取 PDF 文档的文本
- 检查响应并记录结果
- 如果操作成功,打印提取的文本
此示例代码演示了按名称提取文本的 PDF 文档解析
import java.io.File;
import java.nio.file.Files;
import java.nio.file.OpenOption;
import java.nio.file.Path;
import java.nio.file.StandardOpenOption;
import com.google.gson.Gson;
import com.aspose.asposecloudpdf.api.PdfApi;
import com.aspose.asposecloudpdf.model.TextBoxField;
import com.aspose.asposecloudpdf.model.TextBoxFieldResponse;
public class ParseGetTextBoxByName {
public static void extract() {
String REMOTE_FOLDER = "Your_Temp_Pdf_Cloud";
String LOCAL_FOLDER = "c:\\Samples";
String PDF_DOCUMENT = "sample.pdf";
String OUTPUT_FILE = "parsed_text_box_field_output.json";
String TEXT_BOX_NAME = "_YOUR_FILED_NAME_";
try {
PdfApi pdfApi = new PdfApi(API_KEY, API_SECRET);
// upload local PDF file to remote storage
File file = new File(Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString());
pdfApi.uploadFile(Path.of(REMOTE_FOLDER , PDF_DOCUMENT).toString(), file, null);
System.out.println(String.format("File '%s' successfully uploaded!", Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString()));
// perform action
TextBoxFieldResponse response = pdfApi.getTextBoxField(PDF_DOCUMENT, TEXT_BOX_NAME, null, REMOTE_FOLDER);
System.out.println("TextBox fields extracted status: " + response.getStatus());
TextBoxField fieldDef = response.getField();
String jsonFiled = new Gson().toJson(fieldDef);
// save json
Path path = Path.of(LOCAL_FOLDER, OUTPUT_FILE);
byte[] strToBytes = jsonFiled.getBytes();
Files.write(path, strToBytes, new OpenOption[] { StandardOpenOption.WRITE, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING });
System.out.println("TextBox field successfully extracted to: '" + path + "'");
} catch (Exception e) {
e.printStackTrace();
}
}
}
使用 Java SDK 处理 PDF 文本解析
通过按名称提取文本解析 PDF 文档,您可以根据需要修改 TextBox 字段的内容。这可保持文档中文本的位置,同时节省时间并减少人工工作。 使用 Aspose.PDF Cloud Java SDK 按名称提取 PDF 文档的文本。
使用我们的 Java SDK,您可以
- 以文本或图像格式添加 PDF 文档的页眉和页脚。
- 向 PDF 文档添加表格、文本或图像水印。
- 将多个 PDF 文档追加到现有文件中。
- 处理 PDF 附件、批注和表单字段。
- 对 PDF 文档进行加密或解密并设置密码。
- 删除页面或整个 PDF 文档中的所有印章和表格。
- 根据 ID 删除 PDF 文档中的特定印章或表格。
- 替换 PDF 页面或整个文档中的单个或多个文本实例。
- 为将 PDF 文档转换为各种其他文件格式提供全面支持。
- 提取 PDF 文件的各种元素并使 PDF 文档优化。
- 您可以尝试我们的免费应用来测试功能。