Extraire du texte à partir d'images grâce à imgclip

par Korben -

Si pour vos besoins personnels ou dans le cadre professionnel, vous avez besoin d’extraire du texte à partir d’images, voici un outil en ligne de commande qui devrait vous intéresser.

Imgclip utilise la bibliothèque Tesseract.js qui permet de faire de l’OCR (reconnaissance de caractères) dans 65 langues. Ainsi, vous allez pouvoir extraire du texte à partir de photos ou d’images, sans vous prendre la tête. Ça fonctionne avec nodeJS donc ça tourne aussi bien sous Mac que Windows ou Linux.

Pour l’installer, ouvrez un terminal et lancez la commande suivante :

npm install -g imgclip

Ensuite, vous pouvez utiliser le paramètre -l pour préciser la langue (la liste est ici) et le paramètre -p pour afficher le texte dans le terminal plutôt que de l’envoyer dans le presse papier.

Comme vous pouvez le voir, ce n’est pas parfait mais ça doit dépendre de la qualité de l’image et de la police de caractère utilisée. En tout cas, c’est une bonne mise en pratique de la lib Tesseract.js.

Amusez-vous bien !