Extraire le texte d’un PDF dans le SDK Python
Extraire un texte d’un document PDF en utilisant le SDK Cloud Python.
Get StartedComment extraire le texte d'un PDF via le SDK Cloud Python
Pour extraire du texte d’un PDF, nous utiliserons Aspose.PDF Cloud Python SDK. Ce SDK Cloud aide les programmeurs Python à développer des applications créatrices, annotatrices, éditrices et convertisseuses de PDF basées sur le cloud en utilisant le langage de programmation Python via Aspose.PDF REST API. Créez simplement un compte sur Aspose pour Cloud et obtenez les informations de votre application. Une fois que vous avez le SID & la clé de l’application, vous êtes prêt à utiliser le Aspose.PDF Cloud Python SDK. Si le package python est hébergé sur Github, vous pouvez l’installer directement depuis Github :
Installation depuis Github
pip install git+https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python.git
Commande Console du Gestionnaire de Packages
pip install asposepdfcloud
Étapes pour extraire le texte d'un PDF via le SDK Python
Les développeurs Aspose.PDF Cloud peuvent facilement charger et extraire le texte d’un PDF en seulement quelques lignes de code.
- Installez Python SDK.
- Allez sur le Tableau de bord Aspose Cloud.
- Créez un nouveau Compte pour accéder à toutes les applications et services ou connectez-vous à votre compte.
- Cliquez sur Applications dans le menu de gauche pour obtenir l’Id Client et le Secret Client.
- Consultez le Guide du Développeur pour extraire le texte d’un PDF via Python.
- Consultez notre référentiel GitHub pour une liste complète des API avec des exemples fonctionnels.
- Consultez la page de Référence API pour la description des paramètres des API.
Extraire le texte d'un PDF en utilisant Python
file_name = 'pages.pdf'
self.uploadFile(file_name)
llx = 0
lly = 0
urx = 0
ury = 0
opts = {
"folder" : self.temp_folder
}
Travailler avec le texte dans le PDF
L’extraction de texte permet aux données contenues dans les PDF d’être analysées, organisées ou traitées dans des applications externes. Le texte extrait peut être indexé, le rendant consultable à travers des bases de données ou des systèmes de gestion de contenu. Cela améliore la récupération de documents et permet un accès plus rapide à des informations spécifiques, surtout dans de grandes archives de documents. En extrayant du texte et en le sauvegardant dans un format plus simple (comme le texte brut ou XML), les utilisateurs peuvent réduire la taille des fichiers, les rendant plus faciles à partager ou à distribuer. Extrayez le texte des documents PDF avec Aspose.PDF Cloud Python SDK.
Avec notre bibliothèque Python vous pouvez :
- Combiner des documents PDF.
- Diviser des fichiers PDF.
- Convertir des PDF vers d’autres formats, et vice versa.
- Manipuler les annotations.
- Travailler avec des images dans le PDF, etc.
- Vous pouvez essayer notre application gratuite pour extraire le texte des fichiers PDF en ligne et tester la fonctionnalité.