Aller au contenu
Korben, roi d’internet, logo bébé avec des lunettes en mode thug life

Nettoyer et organiser des données en vrac

Il m’est arrivé à plusieurs reprises de devoir nettoyer des données, les organiser, et rendre tout ceci un peu moins bordélique et surtout intégrable dans des bases pour être utilisée par un moteur de recherche. En général, ça se passe à grand coup de rechercher / remplacer, d’expressions régulières et parfois de macro ou de code.

Bref, c’est chiant.

Puis ce matin, je découvre un projet open source sous licence BSD et initié par Google en 2011 qui s’appelle OpenRefine et dont le but est justement de permettre à tout un chacun de faire ce genre de nettoyage beaucoup plus rapidement.

Pour résumer, OpenRefine est un « structurateur de données en bordel ». J’ai regardé les vidéos d’explication et j’ai trouvé ça vraiment sympa. Pour ceux qui se demandent si Google récupère les données, rassurez-vous… L’outil se lance sur votre ordinateur et fonctionne uniquement en local (Windows, OSX, Linux).

Bref, je me note ça pour la prochaine fois que j’aurai des gros fichiers de data à réorganiser.

Plus d’infos ici


Les articles du moment