Analisar PDF para extração de textos no SDK Java
API para analisar documentos PDF e extrair textos usando API Java no servidor.
Get StartedComo analisar documentos PDF para extração de textos usando o SDK Java em nuvem
Para analisar documentos PDF e extrair textos via SDK Java em nuvem, usaremos Aspose.PDF Cloud Java SDK Este SDK Java em nuvem permite que você crie facilmente aplicativos criadores, editores e conversores de PDF baseados em nuvem na linguagem Java para várias plataformas de nuvem. Abrir Repository gerenciador de pacotes, procure por Aspose.PDF Cloud e instale. Você também pode usar o seguinte comando do Console do Gerenciador de Pacotes para instalá-lo usando Maven.
Adicione o repositório Aspose Cloud ao seu pom.xml da aplicação
Adicionar repositório Aspose Cloud
<repositories>
<repository>
<id>aspose-cloud</id>
<name>Aspose Cloud Repository</name>
<url>https://releases.aspose.cloud/java/repo/</url>
</repository>
</repositories>
Para instalar a biblioteca cliente da API no seu repositório Maven local, basta executar:
Instalação a partir do Github
mvn clean install
Para implantá-lo em um repositório Maven remoto, configure as configurações do repositório e execute:
Implantar repositório Maven
mvn clean deploy
Etapas para analisar PDF para extração de textos usando o SDK Java
Desenvolvedores do Aspose.PDF Cloud podem analisar facilmente documentos PDF para extração de textos. Os desenvolvedores precisam de apenas algumas linhas de código.
- Crie um novo objeto Configuration com seu Segredo e Chave da Aplicação
- Crie um objeto para conectar-se à API da Nuvem
- Faça upload do seu arquivo de documento
- Analise documentos PDF para extração de textos no armazenamento em nuvem usando a função getDocumentTextBoxFields
- Verifique a resposta e registre o resultado
- Se a operação for bem-sucedida, imprima os textos extraídos
Este código de exemplo demonstra a análise de documento PDF para extração de textos
import java.io.File;
import java.nio.file.Files;
import java.nio.file.OpenOption;
import java.nio.file.StandardOpenOption;
import java.nio.file.Path;
import com.google.gson.Gson;
import com.aspose.asposecloudpdf.api.PdfApi;
import com.aspose.asposecloudpdf.model.TextBoxField;
import com.aspose.asposecloudpdf.model.TextBoxFieldsResponse;
public class ParseGetTextBoxes {
public static void extract() {
String REMOTE_FOLDER = "Your_Temp_Pdf_Cloud";
String LOCAL_FOLDER = "c:\\Samples";
String PDF_DOCUMENT = "sample.pdf";
String OUTPUT_FILE = "parsed_text_box_fields_output.json";
try {
PdfApi pdfApi = new PdfApi(API_KEY, API_SECRET);
// upload local PDF file to remote storage
File file = new File(Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString());
pdfApi.uploadFile(Path.of(REMOTE_FOLDER , PDF_DOCUMENT).toString(), file, null);
System.out.println(String.format("File '%s' successfully uploaded!", Path.of(LOCAL_FOLDER, PDF_DOCUMENT).toString()));
// perform action
TextBoxFieldsResponse response = pdfApi.getDocumentTextBoxFields(PDF_DOCUMENT, null, REMOTE_FOLDER);
System.out.println("TextBox fields extracted status: " + response.getStatus());
String jsonResult = "[\n";
for (TextBoxField fieldDef : response.getFields().getList()) {
String jsonFiled = new Gson().toJson(fieldDef);
jsonResult += jsonFiled + ",\n\n";
}
jsonResult +="]";
// save json
Path path = Path.of(LOCAL_FOLDER, OUTPUT_FILE);
byte[] strToBytes = jsonResult.getBytes();
Files.write(path, strToBytes, new OpenOption[] { StandardOpenOption.WRITE, StandardOpenOption.CREATE, StandardOpenOption.TRUNCATE_EXISTING });
System.out.println("TextBox fields successfully extracted to: '" + path + "'");
} catch (Exception e) {
e.printStackTrace();
}
}
}
Trabalhe com a análise de texto em PDF via SDK Java
Ao analisar documentos PDF para extração de textos, você pode modificar o conteúdo dos campos TextBox conforme necessário. Isso mantém a posição do texto nos documentos, economizando tempo e reduzindo o trabalho manual. Analise documentos PDF para extração de textos com Aspose.PDF Cloud Java SDK.
Com nosso SDK Java você pode
- Adicionar cabeçalho e rodapé de documento PDF em formato de texto ou imagem.
- Adicionar tabelas e carimbos de texto ou imagem a documentos PDF.
- Anexar vários documentos PDF a um arquivo existente.
- Trabalhar com anexos PDF, anotações e campos de formulário.
- Aplicar criptografia ou descriptografia a documentos PDF e definir uma senha.
- Excluir todos os selos e tabelas de uma página ou de todo o documento PDF.
- Excluir um selo ou tabela específico do documento PDF pelo seu ID.
- Substituir uma ou várias ocorrências de texto em uma página PDF ou em todo o documento.
- Suporte abrangente para converter documentos PDF em diversos outros formatos de arquivo.
- Extrair vários elementos de arquivos PDF e otimizar documentos PDF.
- Você pode experimentar nosso App gratuito para testar a funcionalidade.
- Learning Resources
- Documentation
- Source Code
- API References
- Product Support
- Free Support
- Paid Support
- Blog
- Why Aspose.PDF Cloud for Java?
- Customers List
- Security