Korben, roi d’internet, logo bébé avec des lunettes en mode thug life Korben, roi d’internet, logo bébé avec des lunettes en mode thug life

Korben Upgrade your mind

Extraire le texte et les images d’un PDF sous Linux

Si vous avez besoin de manipuler des PDF dans vos process techniques sous Linux, il existe un petit utilitaire qui s’appelle poppler-utils et qui sait extraire toutes les données d’un PDF. Pour l’installer, il suffit de faire un petit :

sudo apt-get install poppler-utils

Reste ensuite à utiliser la bonne commande en fonction de vos besoins. Par exemple, on peut utiliser…

  • pdfinfo : Permet de voir le nom de l’auteur, le logiciel utilisé, la date de création du document…Etc
  • pdfimages : Permet d’extraire les images contenues dans le PDF
  • pdftotext : Permet de convertir le PDF en texte simple
  • pdftohtml : Permet de convertir le PDF en HTML

Il y en a bien d’autres. Utilisez la complétion auto de votre terminal pour les trouver. Je me suis dit qu’un petit utilitaire comme ça, ça pouvait toujours servir.

Source



Vous connaissez sans doute VMware pour ses solutions de virtualisation notamment en mantière de serveurs. A l’heure où de plus en plus de données sont créées et traitées à l’extérieur de tout datacenter centralisé, grâce à une stratégie multi-cloud, le spécialiste de la virtualisation est devenu un acteur impossible à manquer.


Vous connaissez sans doute VMware pour ses solutions de virtualisation notamment en mantière de serveurs. A l’heure où de plus en plus de données sont créées et traitées à l’extérieur de tout datacenter centralisé, grâce à une stratégie multi-cloud, le spécialiste de la virtualisation est devenu un acteur impossible à manquer.