Разбор PDF для извлечения текста в Java SDK
API для разбора PDF документов с целью извлечения текста с использованием серверного Java API.
Get StartedКак разобрать PDF документы для извлечения текста с помощью Cloud Java SDK
Для разбора PDF документов с целью извлечения текста через Cloud Java SDK мы будем использовать Aspose.PDF Cloud Java SDK Этот Cloud Java SDK позволяет легко создавать облачные приложения‑создатели, редакторы и конвертеры PDF на языке Java для различных облачных платформ. Откройте Repository в менеджере пакетов найдите Aspose.PDF Cloud и установите. Вы также можете использовать следующую команду из консоли менеджера пакетов для установки через Maven.
Добавьте репозиторий Aspose Cloud в ваш файл pom.xml
Добавить репозиторий Aspose Cloud
<repositories>
<repository>
<id>aspose-cloud</id>
<name>Aspose Cloud Repository</name>
<url>https://releases.aspose.cloud/java/repo/</url>
</repository>
</repositories>
Чтобы установить библиотеку клиента API в ваш локальный репозиторий Maven, просто выполните:
Установка из Github
mvn clean install
Чтобы разместить её в удалённом репозитории Maven, настройте параметры репозитория и выполните:
Развертывание Maven репозитория
mvn clean deploy
Шаги для разбора PDF с целью извлечения текста с использованием Java SDK
Разработчики Aspose.PDF Cloud могут легко разбирать PDF документы для извлечения текста. Для этого требуется всего лишь несколько строк кода.
- Создайте новый объект Configuration с секретом и ключом вашего приложения
- Создайте объект для подключения к облачному API
- Загрузите файл вашего документа
- Разберите PDF документы для извлечения текста в облачном хранилище, используя функцию getDocumentTextBoxFields
- Проверьте ответ и запишите результат в журнал
- Если операция прошла успешно, выведите извлечённый текст
Этот пример кода демонстрирует разбор PDF документа для извлечения текста
import java.io.File;
import java.nio.file.Files;
import java.nio.file.OpenOption;
import java.nio.file.StandardOpenOption;
import java.nio.file.Path;
import com.google.gson.Gson;
import com.aspose.asposecloudpdf.api.PdfApi;
import com.aspose.asposecloudpdf.model.TextBoxField;
import com.aspose.asposecloudpdf.model.TextBoxFieldsResponse;
public class ParseGetTextBoxes {
public static void extract() {
String REMOTE_FOLDER = "Your_Temp_Pdf_Cloud";
String LOCAL_FOLDER = "c:\\Samples";
String PDF_DOCUMENT = "sample.pdf";
String OUTPUT_FILE = "parsed_text_box_fields_output.json";
try {
PdfApi pdfApi = new PdfApi(API_KEY, API_SECRET);
// upload local PDF file to remote storage
File file = new File(Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString());
pdfApi.uploadFile(Path.of(REMOTE_FOLDER , PDF_DOCUMENT).toString(), file, null);
System.out.println(String.format("File '%s' successfully uploaded!", Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString()));
// perform action
TextBoxFieldsResponse response = pdfApi.getDocumentTextBoxFields(PDF_DOCUMENT, null, REMOTE_FOLDER);
System.out.println("TextBox fields extracted status: " + response.getStatus());
String jsonResult = "[\n";
for (TextBoxField fieldDef : response.getFields().getList()) {
String jsonFiled = new Gson().toJson(fieldDef);
jsonResult += jsonFiled + ",\n\n";
}
jsonResult +="]";
// save json
Path path = Path.of(LOCAL_FOLDER, OUTPUT_FILE);
byte[] strToBytes = jsonResult.getBytes();
Files.write(path, strToBytes, new OpenOption[] { StandardOpenOption.WRITE, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING });
System.out.println("TextBox fields successfully extracted to: '" + path + "'");
} catch (Exception e) {
e.printStackTrace();
}
}
}
Работа с разбором текста в PDF через Java SDK
Разбирая PDF документы для извлечения текста, вы можете при необходимости изменять содержимое полей TextBox. Это сохраняет позицию текста в документах, экономя время и сокращая ручную работу. Разберите PDF документы для извлечения текста с помощью Aspose.PDF Cloud Java SDK.
С помощью нашего Java SDK вы можете
- Добавлять заголовки и колонтитулы PDF документа в виде текста или изображения.
- Добавлять таблицы и штампы текста или изображения в PDF документы.
- Добавлять несколько PDF документов к существующему файлу.
- Работать с вложениями PDF, аннотациями и полями формы.
- Применять шифрование или дешифрование PDF‑документов и устанавливать пароль.
- Удалять все штампы и таблицы со страницы или всего PDF‑документа.
- Удалять конкретный штамп или таблицу из PDF‑документа по их ID.
- Заменять отдельные или множественные вхождения текста на странице PDF или во всём документе.
- Широкая поддержка конвертации PDF‑документов в различные другие форматы файлов.
- Извлекать различные элементы PDF‑файлов и оптимизировать PDF‑документы.
- Вы можете попробовать наше бесплатное приложение для тестирования функций.
- Учебные ресурсы
- Документация
- Исходный код
- Справочники API
- Поддержка продукта
- Бесплатная поддержка
- Платная поддержка
- Блог
- Почему Aspose.PDF Cloud для Java?
- Список клиентов
- Безопасность