Разбор PDF для извлечения текста в Java SDK

API для разбора PDF документов с целью извлечения текста с использованием серверного Java API.

Get Started

NET PHP PYTHON GO NODEJS

Как разобрать PDF документы для извлечения текста с помощью Cloud Java SDK

Для разбора PDF документов с целью извлечения текста через Cloud Java SDK мы будем использовать Aspose.PDF Cloud Java SDK Этот Cloud Java SDK позволяет легко создавать облачные приложения‑создатели, редакторы и конвертеры PDF на языке Java для различных облачных платформ. Откройте Repository в менеджере пакетов найдите Aspose.PDF Cloud и установите. Вы также можете использовать следующую команду из консоли менеджера пакетов для установки через Maven.

Добавьте репозиторий Aspose Cloud в ваш файл pom.xml

Добавить репозиторий Aspose Cloud
    <repositories>
        <repository>
            <id>aspose-cloud</id>
            <name>Aspose Cloud Repository</name>
            <url>https://releases.aspose.cloud/java/repo/</url>
        </repository>
    </repositories>

Чтобы установить библиотеку клиента API в ваш локальный репозиторий Maven, просто выполните:

Установка из Github
    mvn clean install

Чтобы разместить её в удалённом репозитории Maven, настройте параметры репозитория и выполните:

Развертывание Maven репозитория
    mvn clean deploy

Шаги для разбора PDF с целью извлечения текста с использованием Java SDK

Разработчики Aspose.PDF Cloud могут легко разбирать PDF документы для извлечения текста. Для этого требуется всего лишь несколько строк кода.

Создайте новый объект Configuration с секретом и ключом вашего приложения
Создайте объект для подключения к облачному API
Загрузите файл вашего документа
Разберите PDF документы для извлечения текста в облачном хранилище, используя функцию getDocumentTextBoxFields
Проверьте ответ и запишите результат в журнал
Если операция прошла успешно, выведите извлечённый текст

Этот пример кода демонстрирует разбор PDF документа для извлечения текста
    import java.io.File;
    import java.nio.file.Files;
    import java.nio.file.OpenOption;
    import java.nio.file.StandardOpenOption;
    import java.nio.file.Path;
    import com.google.gson.Gson;

    import com.aspose.asposecloudpdf.api.PdfApi;
    import com.aspose.asposecloudpdf.model.TextBoxField;
    import com.aspose.asposecloudpdf.model.TextBoxFieldsResponse;

    public class ParseGetTextBoxes {
        public static void extract() {
            String REMOTE_FOLDER   = "Your_Temp_Pdf_Cloud";
	    String LOCAL_FOLDER    = "c:\\Samples";
	    String PDF_DOCUMENT    = "sample.pdf";
	    String OUTPUT_FILE     = "parsed_text_box_fields_output.json";

            try {
                PdfApi pdfApi = new PdfApi(API_KEY, API_SECRET);

                // upload local PDF file to remote storage
                File file = new File(Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString());
                pdfApi.uploadFile(Path.of(REMOTE_FOLDER , PDF_DOCUMENT).toString(), file, null);
                System.out.println(String.format("File '%s' successfully uploaded!", Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString()));

                // perform action
                TextBoxFieldsResponse response = pdfApi.getDocumentTextBoxFields(PDF_DOCUMENT, null,  REMOTE_FOLDER);
                System.out.println("TextBox fields extracted status: " + response.getStatus());

                String jsonResult = "[\n";
                for (TextBoxField fieldDef : response.getFields().getList()) {
                    String jsonFiled = new Gson().toJson(fieldDef);
                    jsonResult += jsonFiled + ",\n\n";
                }
                jsonResult +="]";

                // save json
                Path path = Path.of(LOCAL_FOLDER, OUTPUT_FILE);
                byte[] strToBytes = jsonResult.getBytes();
                Files.write(path, strToBytes, new OpenOption[] { StandardOpenOption.WRITE, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING });
		
                System.out.println("TextBox fields successfully extracted to: '" + path + "'");
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

Работа с разбором текста в PDF через Java SDK

Разбирая PDF документы для извлечения текста, вы можете при необходимости изменять содержимое полей TextBox. Это сохраняет позицию текста в документах, экономя время и сокращая ручную работу. Разберите PDF документы для извлечения текста с помощью Aspose.PDF Cloud Java SDK.

С помощью нашего Java SDK вы можете

Добавлять заголовки и колонтитулы PDF документа в виде текста или изображения.
Добавлять таблицы и штампы текста или изображения в PDF документы.
Добавлять несколько PDF документов к существующему файлу.
Работать с вложениями PDF, аннотациями и полями формы.
Применять шифрование или дешифрование PDF‑документов и устанавливать пароль.
Удалять все штампы и таблицы со страницы или всего PDF‑документа.
Удалять конкретный штамп или таблицу из PDF‑документа по их ID.
Заменять отдельные или множественные вхождения текста на странице PDF или во всём документе.
Широкая поддержка конвертации PDF‑документов в различные другие форматы файлов.
Извлекать различные элементы PDF‑файлов и оптимизировать PDF‑документы.
Вы можете попробовать наше бесплатное приложение для тестирования функций.

Почему Aspose.PDF Cloud для Java?
Список клиентов
Безопасность

Разбор PDF для извлечения текста в Java SDK

API для разбора PDF документов с целью извлечения текста с использованием серверного Java API.

Aspose.PDF Cloud SDK для Java

Overview

Как разобрать PDF документы для извлечения текста с помощью Cloud Java SDK

Добавить репозиторий Aspose Cloud

Установка из Github

Развертывание Maven репозитория

Шаги для разбора PDF с целью извлечения текста с использованием Java SDK

Этот пример кода демонстрирует разбор PDF документа для извлечения текста

Работа с разбором текста в PDF через Java SDK