HTML JPG PDF XML DOCX
  Product Family
PDF

在 Java SDK 中解析 PDF 以提取文本

使用服务器端 Java API 解析 PDF 文档以提取文本的 API

Get Started

如何使用云 Java SDK 解析 PDF 文档以提取文本

要通过云 Java SDK 解析 PDF 文档以提取文本,我们将使用 Aspose.PDF Cloud Java SDK 该云 Java SDK 可让您轻松构建基于云的 PDF 创建、编辑和转换应用程序,使用 Java 语言适用于各种云平台。打开 Repository 在包管理器中搜索 Aspose.PDF Cloud 并安装。您还可以使用以下来自包管理器控制台的命令,通过 Maven 安装它。

将 Aspose Cloud 仓库添加到您的应用程序 pom.xml 中

Add Aspose Cloud repository


    <repositories>
        <repository>
            <id>aspose-cloud</id>
            <name>Aspose Cloud Repository</name>
            <url>https://releases.aspose.cloud/java/repo/</url>
        </repository>
    </repositories>

要将 API 客户端库安装到本地 Maven 仓库,只需执行以下操作:

Installation from Github


    mvn clean install

要将其部署到远程 Maven 仓库,请配置仓库设置并执行以下操作:

Deploy Maven repository


    mvn clean deploy

使用 Java SDK 解析 PDF 提取文本的步骤

Aspose.PDF Cloud 开发者可以轻松解析 PDF 文档以提取文本。开发者只需几行代码。

  1. 使用您的应用程序 Secret 和 Key 创建新的 Configuration 对象
  2. 创建一个对象以连接到云 API
  3. 上传您的文档文件
  4. 使用 getDocumentTextBoxFields 函数在云存储中解析 PDF 文档以提取文本
  5. 检查响应并记录结果
  6. 如果操作成功,输出提取的文本
 

此示例代码展示了如何解析 PDF 文档以提取文本


    import java.io.File;
    import java.nio.file.Files;
    import java.nio.file.OpenOption;
    import java.nio.file.StandardOpenOption;
    import java.nio.file.Path;
    import com.google.gson.Gson;

    import com.aspose.asposecloudpdf.api.PdfApi;
    import com.aspose.asposecloudpdf.model.TextBoxField;
    import com.aspose.asposecloudpdf.model.TextBoxFieldsResponse;

    public class ParseGetTextBoxes {
        public static void extract() {
            String REMOTE_FOLDER   = "Your_Temp_Pdf_Cloud";
	    String LOCAL_FOLDER    = "c:\\Samples";
	    String PDF_DOCUMENT    = "sample.pdf";
	    String OUTPUT_FILE     = "parsed_text_box_fields_output.json";

            try {
                PdfApi pdfApi = new PdfApi(API_KEY, API_SECRET);

                // upload local PDF file to remote storage
                File file = new File(Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString());
                pdfApi.uploadFile(Path.of(REMOTE_FOLDER , PDF_DOCUMENT).toString(), file, null);
                System.out.println(String.format("File '%s' successfully uploaded!", Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString()));

                // perform action
                TextBoxFieldsResponse response = pdfApi.getDocumentTextBoxFields(PDF_DOCUMENT, null,  REMOTE_FOLDER);
                System.out.println("TextBox fields extracted status: " + response.getStatus());

                String jsonResult = "[\n";
                for (TextBoxField fieldDef : response.getFields().getList()) {
                    String jsonFiled = new Gson().toJson(fieldDef);
                    jsonResult += jsonFiled + ",\n\n";
                }
                jsonResult +="]";

                // save json
                Path path = Path.of(LOCAL_FOLDER, OUTPUT_FILE);
                byte[] strToBytes = jsonResult.getBytes();
                Files.write(path, strToBytes, new OpenOption[] { StandardOpenOption.WRITE, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING });
		
                System.out.println("TextBox fields successfully extracted to: '" + path + "'");
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
 

通过 Java SDK 进行 PDF 文本解析

通过解析 PDF 文档以提取文本,您可以根据需要修改 TextBox 字段的内容。这在保持文档中文本位置的同时,节省时间并减少手动工作。 使用 Aspose.PDF Cloud Java SDK 解析 PDF 文档以提取文本。

使用我们的 Java SDK,您可以

  • 以文本或图像格式添加 PDF 文档的页眉和页脚。
  • 向 PDF 文档添加表格以及文本或图像水印。
  • 将多个 PDF 文档追加到现有文件中。
  • 处理 PDF 附件、注释和表单字段。
  • 对 PDF 文档进行加密或解密并设置密码。
  • 删除页面或整个 PDF 文档中的所有印章和表格。
  • 根据 ID 删除 PDF 文档中指定的印章或表格。
  • 在 PDF 页面或整篇文档中替换一个或多个文本实例。
  • 广泛支持将 PDF 文档转换为多种其他文件格式。
  • 提取 PDF 文件的各种元素并优化 PDF 文档。
  • 您可以试用我们的免费应用来测试功能。

  •