Skip to content
Korben, roi d’internet, logo bébé avec des lunettes en mode thug life

Extraire le texte et les images d’un PDF sous Linux

Si vous avez besoin de manipuler des PDF dans vos process techniques sous Linux, il existe un petit utilitaire qui s’appelle poppler-utils et qui sait extraire toutes les données d’un PDF. Pour l’installer, il suffit de faire un petit :

sudo apt-get install poppler-utils

Reste ensuite à utiliser la bonne commande en fonction de vos besoins. Par exemple, on peut utiliser…

  • pdfinfo : Permet de voir le nom de l’auteur, le logiciel utilisé, la date de création du document…Etc
  • pdfimages : Permet d’extraire les images contenues dans le PDF
  • pdftotext : Permet de convertir le PDF en texte simple
  • pdftohtml : Permet de convertir le PDF en HTML

Il y en a bien d’autres. Utilisez la complétion auto de votre terminal pour les trouver. Je me suis dit qu’un petit utilitaire comme ça, ça pouvait toujours servir.

Source


Le Festival Tech à ne pas manquer !

Les 8 et 9 septembre prochain se déroulera le festival tech DevBreak au château de Farcheville dans le 91.

Dans ce lieu magnifique, plus de 700 développeurs et développeuses se rassembleront pour assister aux conférences de grands noms de la tech, participer à des ateliers et bien sûr se ressourcer dans la nature.

l est ouvert à tous et ça va être génial ! Bien évidemment, j’y serai et vous pourrez échanger avec moi et les autres participants.

Pour en savoir plus et réserver votre billet, cliquez-ici

Les articles du moment