Extraire des données structurées à partir d'un PDF

par Korben -

Si vous cherchez un moyen d’extraire de manière structurée des données à partir de PDF, j’ai ce qu’il vous faut. C’est une application sous licence MIT nommé Tabula dont les sources sont dispo ici, qui permet simplement en traçant des zones sur des PDF que vous importez, de récupérer des données sous la forme de CSV.

Idéal pour extraire des infos proprement surtout qu’il est possible de répéter les zones de sélection sur l’ensemble des pages de vos documents.

Tabula est téléchargeable ici et dispo sous Mac, Linux et Windows.