Octopii - Le projet libre qui détecte les données personnelles
Alors je vous le dis tout de suite, ce projet n’a rien à voir avec l’impression 3D.
Octopii est un script en Python qui est capable d’analyser des images à l’aide l’intelligence artificielle pour vérifier et récupérer les données personnelles qui s’y trouvent. Octopii se charge de redresser et nettoyer les images, et sait reconnaitre s’il s’agit d’un document d’identification comme un passeport ou une carte d’identité. Il essaye ensuite de récupérer les données qui se trouvent dessus à l’aide d’OCR (reconnaissance optique de caractères).
En fonction des informations récupérées sur l’image et sur le texte, l’algorithme est alors capable de classer chacune de ces images pour qu’elle soit ensuite contrôlée par un humain.
Ce genre d’outil peut servir pour vérifier si des informations personnelles ont fuité sur Internet, ou tout simplement pour valider ou non la présence d’une identité sur des documents scannés ou transmis.
Pour installer et tester Octopii, rendez-vous sur le projet Github.
Récupérez les sources avec un git clone.
git clone https://github.com/redhuntlabs/Octopii.git
Puis installez les dépendances:
pip install -r requirements.txt
Installez ensuite Tesseract (le moteur OCR) comme ceci :
sudo apt install tesseract-ocr -y
Puis lancez Octopii en lui indiquant le répertoire à scanner :
python3 octopii.py DOSSIER/
Octopii est un outil puissant qui permet donc d’obtenir un indice de confiance sur la présence de données personnelles présentes sur des images. Idéal donc pour vérifier si des informations personnelles ont fuité sur Internet ou pour tracker proprement la présence d’informations d’identification sur des documents scannés.