Aller au contenu
Korben, roi d’internet, logo bébé avec des lunettes en mode thug life

Extraire le texte et les images d’un PDF sous Linux

Si vous avez besoin de manipuler des PDF dans vos process techniques sous Linux, il existe un petit utilitaire qui s’appelle poppler-utils et qui sait extraire toutes les données d’un PDF. Pour l’installer, il suffit de faire un petit :

sudo apt-get install poppler-utils

Reste ensuite à utiliser la bonne commande en fonction de vos besoins. Par exemple, on peut utiliser…

  • pdfinfo : Permet de voir le nom de l’auteur, le logiciel utilisé, la date de création du document…Etc
  • pdfimages : Permet d’extraire les images contenues dans le PDF
  • pdftotext : Permet de convertir le PDF en texte simple
  • pdftohtml : Permet de convertir le PDF en HTML

Il y en a bien d’autres. Utilisez la complétion auto de votre terminal pour les trouver. Je me suis dit qu’un petit utilitaire comme ça, ça pouvait toujours servir.

Source


Les articles du moment