Comment automatiser des traitements sur des jeux de données ? #data-pipeline

Le 12 juin 2021 par Korben ✨ -

Il arrive parfois qu’on doive retravailler des données. Prendre par exemple un fichier JSON, CSV ou SQL, le filtrer pour enlever des données, retirer certaines colonnes, fusionner plusieurs sources…etc.

La plupart du temps, cela nécessite de savoir développer, car il n’y a pas d’outil magique pour faire ça. Toutefois, voici un outil qui ne réglera pas TOUS vos problèmes, mais qui vous permettra de transformer vos données avec quelques clics en automatisant tout ça pour gagner du temps. C’est d’ailleurs un outil qui aurait pu se retrouver dans le livre de Fabien Olicard qui donne des tas d’astuces pour mieux utiliser son temps et donc en gagner !

Cet outil s’appelle Glue et il fonctionne un peu à la manière d’un Yahoo! Pipes pour ceux qui ont connu cet outil. En gros vous placez une ou plusieurs sources de données, cela peut être une base MySQL, un fichier JSON, un fichier CSV, Excel, SQLite et j’en passe. Ensuite, vous pouvez agréger ces sources de données, concaténer les données, ou les alléger en supprimant des colonnes ou ne ressortir que certaines données avec des opérateurs (is, equal, empty…etc.).

Et une fois que votre tambouille est terminée, vous placez un objet Output et vous choisissez un format de sortie (csv, xls, paquet, feather, sqlite, json).

Une fois que le process est en place, y’a plus qu’à cliquer sur Run pour lancer le traitement et obtenir le fichier de sortie de vos rêves.

Les briques essentielles sont là même si on pourrait se trouver limité par rapport à un Yahoo! Pipes mais la bonne nouvelle, c’est que Glue permet d’intégrer également des fonctions en Python. Cela veut dire que vous pouvez également ajouter votre propre couche de traitement fait maison pour modifier les données. C’est super pratique. D’ailleurs, je vous recommande ce livre pour ceux qui veulent se mettre au Python, un langage simple à apprendre et vraiment hyper puissant.

Vraiment top !

Glue est dispo pour macOS, Linux et Windows ici.

La clé de la réussite pour votre TPE/PME : l'hébergement web o2switch

Contenu partenaire

Vous cherchez un hébergement web professionnel pour propulser votre entreprise ? Ne cherchez plus.

Avec l'Offre Unique de o2switch, offrez à votre TPE/PME l'hébergement qu'elle mérite pour viser les sommets.

Boostez la vitesse de votre site et vos applications avec 12 CPU et 48 Go de RAM. Stockez sans compter grâce à l'espace disque illimité. Soyez serein avec des sauvegardes quotidiennes automatiques et un support technique toujours disponible. Tout ça sur des serveurs sécurisés, hébergés en France.

Pilotez votre activité en ligne du bout des doigts, sans connaissances techniques, via l'interface cPanel. Site web, outils, emails... tout est centralisé !

Le meilleur dans tout ça ? L'Offre Unique est à seulement 4,2 € HT/mois. C'est le moment d'offrir à votre entreprise l'hébergement qu'elle mérite pour décoller. Avec o2switch, dites adieu aux problèmes techniques et bonjour à la croissance !

Découvrez vite l'Offre Unique