Si vous cherchez un moyen d'extraire de manière structurée des données à partir de PDF, j'ai ce qu'il vous faut. C'est une application sous licence MIT nommé Tabula dont les sources sont dispo ici, qui permet simplement en traçant des zones sur des PDF que vous importez, de récupérer des données sous la forme de CSV.


tabula1 Extraire des données structurées à partir dun PDF

tabula2 Extraire des données structurées à partir dun PDF

Idéal pour extraire des infos proprement surtout qu'il est possible de répéter les zones de sélection sur l'ensemble des pages de vos documents.

Tabula est téléchargeable ici et dispo sous Mac, Linux et Windows.

Vous avez aimé cet article ? Alors partagez-le avec vos amis en cliquant sur les boutons ci-dessous :

Pinterest Twitter Facebook Google Plus Linkedin email Flattr ! Bitcoin DogeCoin