Extraire le texte et les images d'un PDF sous Linux

Image illustrant l'article : Extraire le texte et les images d'un PDF sous Linux

Extraire le texte et les images d'un PDF sous Linux

par Korben -

Si vous avez besoin de manipuler des PDF dans vos process techniques sous Linux, il existe un petit utilitaire qui s’appelle poppler-utils et qui sait extraire toutes les données d’un PDF. Pour l’installer, il suffit de faire un petit :

sudo apt-get install poppler-utils

Reste ensuite à utiliser la bonne commande en fonction de vos besoins. Par exemple, on peut utiliser…

  • pdfinfo : Permet de voir le nom de l’auteur, le logiciel utilisé, la date de création du document…Etc
  • pdfimages : Permet d’extraire les images contenues dans le PDF
  • pdftotext : Permet de convertir le PDF en texte simple
  • pdftohtml : Permet de convertir le PDF en HTML

Il y en a bien d’autres. Utilisez la complétion auto de votre terminal pour les trouver. Je me suis dit qu’un petit utilitaire comme ça, ça pouvait toujours servir.

Source