HTML JPG PDF XML DOCX
  Product Family
PDF

Phân tích PDF để trích xuất các bảng trong SDK Java

API để phân tích tài liệu PDF nhằm trích xuất các bảng sử dụng API Java phía server.

Get Started

Cách phân tích tài liệu PDF để trích xuất các bảng bằng Cloud Java SDK

Để phân tích tài liệu PDF và trích xuất các bảng qua Cloud Java SDK, chúng tôi sẽ sử dụng Aspose.PDF Cloud Java SDK SDK Java trên đám mây này cho phép bạn dễ dàng xây dựng các ứng dụng tạo, chỉnh sửa và chuyển đổi PDF dựa trên đám mây bằng ngôn ngữ Java cho nhiều nền tảng đám mây. Mở Repository trong trình quản lý gói, tìm kiếm Aspose.PDF Cloud và cài đặt. Bạn cũng có thể sử dụng lệnh sau từ Package Manager Console để cài đặt bằng Maven.

Thêm kho Aspose Cloud vào file pom.xml của ứng dụng

Thêm kho Aspose Cloud


    <repositories>
        <repository>
            <id>aspose-cloud</id>
            <name>Aspose Cloud Repository</name>
            <url>https://releases.aspose.cloud/java/repo/</url>
        </repository>
    </repositories>

Để cài đặt thư viện khách hàng API vào kho Maven cục bộ của bạn, chỉ cần thực thi:

Cài đặt từ Github


    mvn clean install

Để triển khai nó vào kho Maven từ xa, hãy cấu hình cài đặt của kho và thực thi:

Triển khai kho Maven


    mvn clean deploy

Các bước để phân tích PDF và trích xuất bảng bằng Java SDK

Các nhà phát triển Aspose.PDF Cloud có thể dễ dàng phân tích tài liệu PDF để trích xuất các bảng. Chỉ cần một vài dòng mã.

  1. Tạo đối tượng Configuration mới với Application Secret và Key của bạn
  2. Tạo một đối tượng để kết nối với Cloud API
  3. Tải lên tệp tài liệu của bạn
  4. Phân tích tài liệu PDF để trích xuất các bảng trong lưu trữ đám mây bằng hàm getDocumentTables
  5. Kiểm tra phản hồi và ghi log kết quả
  6. Nếu thao tác thành công, in ra các bảng đã trích xuất
 

Mã mẫu này cho thấy cách phân tích tài liệu PDF để trích xuất các bảng


    import java.io.File;
    import java.nio.file.Files;
    import java.nio.file.OpenOption;
    import java.nio.file.StandardOpenOption;
    import java.nio.file.Path;
    import com.google.gson.Gson;

    import com.aspose.asposecloudpdf.api.PdfApi;
    import com.aspose.asposecloudpdf.model.TableRecognized;
    import com.aspose.asposecloudpdf.model.TablesRecognizedResponse;

    public class ParseGetTables {
        public static void extract() {
            String REMOTE_FOLDER   = "Your_Temp_Pdf_Cloud";
	    String LOCAL_FOLDER    = "c:\\Samples";
	    String PDF_DOCUMENT    = "sample.pdf";
	    String OUTPUT_FILE     = "parsed_tables_output.json";

            try {
                PdfApi pdfApi = new PdfApi(API_KEY, API_SECRET);

                // upload local PDF file to remote storage
                File file = new File(Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString());
                pdfApi.uploadFile(Path.of(REMOTE_FOLDER , PDF_DOCUMENT).toString(), file, null);
                System.out.println(String.format("File '%s' successfully uploaded!", Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString()));

                // perform action
                TablesRecognizedResponse response = pdfApi.getDocumentTables(PDF_DOCUMENT, null,  REMOTE_FOLDER);
                System.out.println("Tables extracted status: " + response.getStatus());

                String jsonResult = "[\n";
                for (TableRecognized tableDef : response.getTables().getList()) {
                    String jsonTable = new Gson().toJson(tableDef);
                    jsonResult += jsonTable + ",\n\n";
                }
                jsonResult +="]";

                // save json
                Path path = Path.of(LOCAL_FOLDER, OUTPUT_FILE);
                byte[] strToBytes = jsonResult.getBytes();
                Files.write(path, strToBytes, new OpenOption[] { StandardOpenOption.WRITE, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING });
            
                System.out.println("Tables successfully extracted to: '" + path + "'");
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
 

Làm việc với việc phân tích bảng trong PDF qua Java SDK

Bằng cách phân tích tài liệu PDF để trích xuất các bảng, bạn có thể chỉnh sửa nội dung của các bảng theo nhu cầu. Điều này giữ nguyên vị trí của bảng trong tài liệu, đồng thời tiết kiệm thời gian và giảm công việc thủ công. Phân tích tài liệu PDF để trích xuất các bảng với Aspose.PDF Cloud Java SDK.

Với SDK Java của chúng tôi, bạn có thể

  • Thêm header & footer cho tài liệu PDF dưới dạng văn bản hoặc hình ảnh.
  • Thêm bảng & dấu tem văn bản hoặc hình ảnh vào tài liệu PDF.
  • Nối nhiều tài liệu PDF vào một tệp hiện có.
  • Làm việc với tệp đính kèm PDF, chú thích và trường biểu mẫu.
  • Áp dụng mã hóa hoặc giải mã cho tài liệu PDF và đặt mật khẩu.
  • Xóa tất cả các dấu và bảng khỏi một trang hoặc toàn bộ tài liệu PDF.
  • Xóa một dấu hoặc bảng cụ thể khỏi tài liệu PDF theo ID của nó.
  • Thay thế một hoặc nhiều vị trí của văn bản trên một trang PDF hoặc trên toàn bộ tài liệu.
  • Hỗ trợ mở rộng cho việc chuyển đổi tài liệu PDF sang các định dạng tệp khác nhau.
  • Trích xuất các thành phần khác nhau của tệp PDF và tối ưu hóa tài liệu PDF.
  • Bạn có thể dùng thử ứng dụng miễn phí của chúng tôi để kiểm tra chức năng.

  •