HTML JPG PDF XML DOCX
  Product Family
PDF

Extraire du texte à partir de PDF dans Node.js SDK

Extraire du texte à partir de documents PDF en utilisant Cloud Node.js SDK.

Get Started

Comment extraire du texte à partir de PDF via Node.js SDK

Pour extraire du texte à partir de PDF, nous utiliserons Aspose.PDF Cloud Node.js SDK. Ce SDK Cloud aide les programmeurs Node.js à développer des applications de création, d’annotation, d’édition et de conversion de PDF basées sur le cloud en utilisant le langage de programmation Node.js via Aspose.PDF REST API. Créez simplement un compte sur Aspose for Cloud et obtenez les informations de votre application. Une fois que vous avez l’App SID et la clé, vous êtes prêt à utiliser Aspose.PDF Cloud Node.js SDK.

Commande de la console du gestionnaire de paquets


     
    npm install asposepdfcloud --save
     
     

Étapes pour extraire du texte en utilisant Node.js

Les développeurs Aspose.PDF Cloud peuvent facilement charger et extraire du texte à partir de PDF en quelques lignes de code.

  1. Chargez votre Secret et Key de l’application à partir du fichier JSON ou définissez les informations d’identification d’une autre manière
  2. Créez un objet pour se connecter à l’API Cloud
  3. Téléchargez votre fichier de document
  4. Effectuez l’extraction du texte en utilisant la fonction pdfApi.getText
  5. Téléchargez le résultat si nécessaire
 

Extraire du texte à partir de PDF en utilisant Node.js


    async function () {
        const pdfApi = new PdfApi(credentials.id, credentials.key);
        try {
            const fileBuffer = await fs.readFile(LOCAL_FILE_NAME);
            await pdfApi.uploadFile(STORAGE_FILENAME, fileBuffer);
            const result = await pdfApi.getText(STORAGE_FILENAME, 0, 0, 0, 0);
            const lines = result.body.textOccurrences.list.map(line=>line.text).join("\n");
            await fs.writeFile("extracted.txt", lines);
        }
        catch (error) {
            console.error(error.message);
        }
    }
 

Travailler avec du texte dans PDF

L’extraction de texte permet d’analyser, d’organiser ou de traiter les données des PDF dans des applications externes. Le texte extrait peut être indexé, ce qui le rend consultable à travers des bases de données ou des systèmes de gestion de contenu. Cela améliore la récupération des documents et permet un accès plus rapide aux informations spécifiques, surtout dans de grandes archives de documents. En extrayant du texte et en le sauvegardant dans un format plus simple (comme le texte brut ou XML), les utilisateurs peuvent réduire la taille des fichiers, les rendant plus faciles à partager ou à distribuer. Extrayez du texte des documents PDF avec Aspose.PDF Cloud Node.js SDK.

Avec notre bibliothèque Node.js, vous pouvez :

  • Ajouter l’en-tête et le pied de page du document PDF au format texte ou image.
  • Ajouter des tableaux et des tampons (texte ou image) aux documents PDF.
  • Ajouter plusieurs documents PDF à un fichier existant.
  • Travailler avec les pièces jointes, annotations et champs de formulaire PDF.
  • Appliquer le chiffrement ou le déchiffrement aux documents PDF et définir un mot de passe.
  • Supprimer tous les tampons et tableaux d’une page ou d’un document PDF entier.
  • Supprimer un tampon ou un tableau spécifique du document PDF par son ID.
  • Remplacer une ou plusieurs instances de texte sur une page PDF ou dans l’ensemble du document.
  • Support étendu pour la conversion de documents PDF en divers autres formats de fichiers.
  • Extraire divers éléments des fichiers PDF et optimiser les documents PDF.
  • Vous pouvez essayer notre application gratuite pour extraire du texte de fichiers PDF en ligne et tester la fonctionnalité.