Phân tích PDF để trích xuất văn bản trong Java SDK
API để phân tích tài liệu PDF và trích xuất văn bản bằng API Java phía máy chủ.
Get StartedCách phân tích tài liệu PDF để trích xuất văn bản bằng Cloud Java SDK
Để phân tích tài liệu PDF và trích xuất văn bản qua Cloud Java SDK, chúng ta sẽ sử dụng Aspose.PDF Cloud Java SDK SDK Java đám mây này cho phép bạn dễ dàng xây dựng các ứng dụng tạo, chỉnh sửa và chuyển đổi PDF dựa trên đám mây bằng ngôn ngữ Java cho nhiều nền tảng đám mây. Mở Repository trình quản lý gói, tìm kiếm Aspose.PDF Cloud và cài đặt. Bạn cũng có thể sử dụng lệnh sau trong Package Manager Console để cài đặt bằng Maven.
Thêm kho lưu trữ Aspose Cloud vào file pom.xml của ứng dụng
Add Aspose Cloud repository
<repositories>
<repository>
<id>aspose-cloud</id>
<name>Aspose Cloud Repository</name>
<url>https://releases.aspose.cloud/java/repo/</url>
</repository>
</repositories>
Để cài đặt thư viện client API vào kho Maven cục bộ, chỉ cần thực hiện:
Cài đặt từ Github
mvn clean install
Để triển khai nó vào kho Maven từ xa, hãy cấu hình cài đặt của kho và thực hiện:
Triển khai kho Maven
mvn clean deploy
Các bước để phân tích PDF và trích xuất văn bản bằng Java SDK
Các nhà phát triển Aspose.PDF Cloud có thể dễ dàng phân tích tài liệu PDF để trích xuất văn bản. Chỉ cần một vài dòng mã.
- Tạo một đối tượng Configuration mới với Application Secret và Key của bạn
- Tạo một đối tượng để kết nối với Cloud API
- Tải lên tệp tài liệu của bạn
- Phân tích tài liệu PDF để trích xuất văn bản trong lưu trữ đám mây sử dụng hàm getDocumentTextBoxFields
- Kiểm tra phản hồi và ghi nhật ký kết quả
- Nếu thao tác thành công, in ra các văn bản đã trích xuất
Mã mẫu này hiển thị cách phân tích tài liệu PDF để trích xuất văn bản
import java.io.File;
import java.nio.file.Files;
import java.nio.file.OpenOption;
import java.nio.file.StandardOpenOption;
import java.nio.file.Path;
import com.google.gson.Gson;
import com.aspose.asposecloudpdf.api.PdfApi;
import com.aspose.asposecloudpdf.model.TextBoxField;
import com.aspose.asposecloudpdf.model.TextBoxFieldsResponse;
public class ParseGetTextBoxes {
public static void extract() {
String REMOTE_FOLDER = "Your_Temp_Pdf_Cloud";
String LOCAL_FOLDER = "c:\\Samples";
String PDF_DOCUMENT = "sample.pdf";
String OUTPUT_FILE = "parsed_text_box_fields_output.json";
try {
PdfApi pdfApi = new PdfApi(API_KEY, API_SECRET);
// upload local PDF file to remote storage
File file = new File(Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString());
pdfApi.uploadFile(Path.of(REMOTE_FOLDER , PDF_DOCUMENT).toString(), file, null);
System.out.println(String.format("File '%s' successfully uploaded!", Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString()));
// perform action
TextBoxFieldsResponse response = pdfApi.getDocumentTextBoxFields(PDF_DOCUMENT, null, REMOTE_FOLDER);
System.out.println("TextBox fields extracted status: " + response.getStatus());
String jsonResult = "[\n";
for (TextBoxField fieldDef : response.getFields().getList()) {
String jsonFiled = new Gson().toJson(fieldDef);
jsonResult += jsonFiled + ",\n\n";
}
jsonResult +="]";
// save json
Path path = Path.of(LOCAL_FOLDER, OUTPUT_FILE);
byte[] strToBytes = jsonResult.getBytes();
Files.write(path, strToBytes, new OpenOption[] { StandardOpenOption.WRITE, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING });
System.out.println("TextBox fields successfully extracted to: '" + path + "'");
} catch (Exception e) {
e.printStackTrace();
}
}
}
Làm việc với việc phân tích văn bản trong PDF qua Java SDK
Bằng cách phân tích tài liệu PDF để trích xuất văn bản, bạn có thể chỉnh sửa nội dung của các trường TextBox khi cần. Điều này giữ vị trí của văn bản trong tài liệu đồng thời tiết kiệm thời gian và giảm công việc thủ công. Phân tích tài liệu PDF để trích xuất văn bản với Aspose.PDF Cloud Java SDK.
Với SDK Java của chúng tôi, bạn có thể
- Thêm phần đầu & phần cuối của tài liệu PDF dưới dạng văn bản hoặc hình ảnh.
- Thêm các bảng & dấu thời gian văn bản hoặc hình ảnh vào tài liệu PDF.
- Nối nhiều tài liệu PDF vào một tệp hiện có.
- Làm việc với tệp đính kèm PDF, chú thích và các trường biểu mẫu.
- Áp dụng mã hoá hoặc giải mã cho tài liệu PDF và đặt mật khẩu.
- Xóa tất cả dấu và bảng khỏi một trang hoặc toàn bộ tài liệu PDF.
- Xóa một dấu hoặc bảng cụ thể khỏi tài liệu PDF bằng ID của nó.
- Thay thế một hoặc nhiều trường hợp của văn bản trên một trang PDF hoặc trên toàn bộ tài liệu.
- Hỗ trợ mở rộng việc chuyển đổi tài liệu PDF sang các định dạng tập tin khác nhau.
- Trích xuất các thành phần khác nhau của tệp PDF và tối ưu hóa tài liệu PDF.
- Bạn có thể dùng thử ứng dụng miễn phí của chúng tôi để kiểm tra chức năng.
- Learning Resources
- Documentation
- Source Code
- API References
- Product Support
- Free Support
- Paid Support
- Blog
- Why Aspose.PDF Cloud for Java?
- Customers List
- Security