Extraire le texte et les images d'un PDF sous Linux
Si vous avez besoin de manipuler des PDF dans vos process techniques sous Linux, il existe un petit utilitaire qui s’appelle poppler-utils et qui sait extraire toutes les données d’un PDF. Pour l’installer, il suffit de faire un petit :
sudo apt-get install poppler-utils
Reste ensuite à utiliser la bonne commande en fonction de vos besoins. Par exemple, on peut utiliser…
- pdfinfo : Permet de voir le nom de l’auteur, le logiciel utilisé, la date de création du document…Etc
- pdfimages : Permet d’extraire les images contenues dans le PDF
- pdftotext : Permet de convertir le PDF en texte simple
- pdftohtml : Permet de convertir le PDF en HTML
Il y en a bien d’autres. Utilisez la complétion auto de votre terminal pour les trouver. Je me suis dit qu’un petit utilitaire comme ça, ça pouvait toujours servir.