Aller au contenu
Korben, roi d’internet, logo bébé avec des lunettes en mode thug life

Extraire des données structurées à partir d’un PDF

Si vous cherchez un moyen d’extraire de manière structurée des données à partir de PDF, j’ai ce qu’il vous faut. C’est une application sous licence MIT nommé Tabula dont les sources sont dispo ici, qui permet simplement en traçant des zones sur des PDF que vous importez, de récupérer des données sous la forme de CSV.

tabula1

tabula2

Idéal pour extraire des infos proprement surtout qu’il est possible de répéter les zones de sélection sur l’ensemble des pages de vos documents.

Tabula est téléchargeable ici et dispo sous Mac, Linux et Windows.


Les articles du moment