HTML JPG PDF XML DOCX
  Product Family
PDF

Analizar PDF para extracción de textos en SDK Java

API para analizar documentos PDF y extraer textos usando la API Java del lado del servidor.

Get Started

Cómo analizar documentos PDF para extracción de textos usando Cloud Java SDK

Para analizar documentos PDF y extraer textos mediante Cloud Java SDK, utilizaremos Aspose.PDF Cloud Java SDK Este Cloud Java SDK le permite crear fácilmente aplicaciones basadas en la nube para crear, editar y convertir PDF en lenguaje Java para varias plataformas cloud. Abrir Repository Administrador de paquetes, busque Aspose.PDF Cloud e instale. También puede usar el siguiente comando desde la consola del Administrador de paquetes para instalarlo usando Maven.

Agregue el repositorio Aspose Cloud a su archivo pom.xml

Agregar repositorio Aspose Cloud


    <repositories>
        <repository>
            <id>aspose-cloud</id>
            <name>Aspose Cloud Repository</name>
            <url>https://releases.aspose.cloud/java/repo/</url>
        </repository>
    </repositories>

Para instalar la biblioteca cliente API en su repositorio Maven local, simplemente ejecute:

Instalación desde Github


    mvn clean install

Para desplegarlo en un repositorio Maven remoto, configure la configuración del repositorio y ejecute:

Desplegar repositorio Maven


    mvn clean deploy

Pasos para analizar PDF para extracción de textos usando SDK Java

Los desarrolladores de Aspose.PDF Cloud pueden analizar fácilmente documentos PDF para extracción de textos. Los desarrolladores solo necesitan unas pocas líneas de código.

  1. Crear un nuevo objeto Configuration con su Secreto y Clave de aplicación
  2. Crear un objeto para conectar con la API de la nube
  3. Subir su archivo de documento
  4. Analizar documentos PDF para extracción de textos en almacenamiento en la nube usando la función getDocumentTextBoxFields
  5. Verificar la respuesta y registrar el resultado
  6. Si la operación fue exitosa, imprimir los textos extraídos
 

Este código de ejemplo muestra el análisis de documentos PDF para extracción de textos


    import java.io.File;
    import java.nio.file.Files;
    import java.nio.file.OpenOption;
    import java.nio.file.StandardOpenOption;
    import java.nio.file.Path;
    import com.google.gson.Gson;

    import com.aspose.asposecloudpdf.api.PdfApi;
    import com.aspose.asposecloudpdf.model.TextBoxField;
    import com.aspose.asposecloudpdf.model.TextBoxFieldsResponse;

    public class ParseGetTextBoxes {
        public static void extract() {
            String REMOTE_FOLDER   = "Your_Temp_Pdf_Cloud";
	    String LOCAL_FOLDER    = "c:\\Samples";
	    String PDF_DOCUMENT    = "sample.pdf";
	    String OUTPUT_FILE     = "parsed_text_box_fields_output.json";

            try {
                PdfApi pdfApi = new PdfApi(API_KEY, API_SECRET);

                // upload local PDF file to remote storage
                File file = new File(Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString());
                pdfApi.uploadFile(Path.of(REMOTE_FOLDER , PDF_DOCUMENT).toString(), file, null);
                System.out.println(String.format("File '%s' successfully uploaded!", Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString()));

                // perform action
                TextBoxFieldsResponse response = pdfApi.getDocumentTextBoxFields(PDF_DOCUMENT, null,  REMOTE_FOLDER);
                System.out.println("TextBox fields extracted status: " + response.getStatus());

                String jsonResult = "[\n";
                for (TextBoxField fieldDef : response.getFields().getList()) {
                    String jsonFiled = new Gson().toJson(fieldDef);
                    jsonResult += jsonFiled + ",\n\n";
                }
                jsonResult +="]";

                // save json
                Path path = Path.of(LOCAL_FOLDER, OUTPUT_FILE);
                byte[] strToBytes = jsonResult.getBytes();
                Files.write(path, strToBytes, new OpenOption[] { StandardOpenOption.WRITE, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING });
		
                System.out.println("TextBox fields successfully extracted to: '" + path + "'");
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
 

Trabaje con el análisis de texto en PDF mediante SDK Java

Al analizar documentos PDF para la extracción de textos, puede modificar el contenido de los campos TextBox según sea necesario. Esto mantiene la posición del texto en los documentos mientras ahorra tiempo y reduce el trabajo manual. Analice documentos PDF para extraer textos con Aspose.PDF Cloud Java SDK.

Con nuestro SDK Java usted puede

  • Añadir encabezado y pie de página del documento PDF en formato de texto o imagen.
  • Añadir tablas y sellos de texto o imagen a documentos PDF.
  • Añadir varios documentos PDF a un archivo existente.
  • Trabajar con adjuntos PDF, anotaciones y campos de formulario.
  • Aplicar cifrado o descifrado a documentos PDF y establecer una contraseña.
  • Eliminar todos los sellos y tablas de una página o de todo el documento PDF.
  • Eliminar un sello o tabla específica del documento PDF por su ID.
  • Reemplazar una o varias instancias de texto en una página PDF o en todo el documento.
  • Amplio soporte para convertir documentos PDF a varios formatos de archivo.
  • Extraer varios elementos de archivos PDF y optimizar los documentos PDF.
  • Puedes probar nuestra aplicación gratuita para probar la funcionalidad.

  •