Un script pour améliorer votre archive d'export Twitter
Avec tout ce buzz autour d’Elon Musk et de Twitter de ces dernières semaines, nous sommes nombreux à avoir lancé un petit export de nos données Twitter, juste au cas où. En faisant ça, on peut ainsi récupérer un zip contenant toutes nos données personnelles, mais également nos tweets, nos photos envoyées et surtout nos DM.
Personnellement, je ne pense pas qu’Elon Musk, aussi farfelu soit-il, mette en miette un stupide site web racheté quand même 44 milliards. Ça me parait impossible et je suis de ceux qui pensent que Twitter a encore une belle et longue vie devant lui.
Si vous avez exporté vos données Twitter, vous avez dû remarquer que vous pouvez consulter tout ça au travers d’une page HTML fournie dans l’archive. Mais celle-ci présente plusieurs problèmes. Par exemple, si vous cliquez sur l’une des images contenues dans un tweet, vous êtes renvoyé vers le site de Twitter. Ce qui est complètement con si demain votre compte est supprimé ou que Twitter disparait.
Comment télécharger une archive de vos données Twitter ?
Comme les tweets sont archivés en JSON, il est compliqué de simplement les copier-coller pour les mettre ailleurs. Même les images fournies ne sont pas exactement identiques à celles que vous avez envoyées. Elles sont étrangement plus petites. C’est dommage.
Concernant les DM, même s’ils sont présents dans l’archive, on ne peut pas savoir qui les a envoyés puisque les noms des émetteurs ont été retirés de l’archive. Enfin, les liens inclus dans les messages ne sont pas en clair, mais sont raccourcis. Donc impossible de savoir de quoi ça cause sans cliquer dessus. Et surtout, si un jour Twitter retire son domaine lié aux URLs raccourcies, et bien plus aucun de ces liens ne fonctionnera.
Tous ces petits détails ont incité Tim Hutton et ses amis à agir en proposant un script baptisé Twitter Archive Parser qui “répare” tous ces défauts. En effet, une fois lancé comme ceci sur votre archive…
python parser.py
Le script se charge alors de convertir tous vos tweets en markdown et HTML en y intégrant les bonnes images (dans leur taille d’origine), les vidéos et les liens intégrés. Toutes les URLs raccourcies t.co sont ainsi remplacées par les vrais liens et les images récupérées sont stockées dans un dossier spécifique pour que vous puissiez ensuite les utiliser ou les stocker ailleurs.
Si des pseudos sont absents de l’archive, ce parser est également capable de retrouver tous ces identifiants manquants directement depuis Twitter.com pour les réintégrer dans l’archive. Les DMs sont également convertis en markdown avec leurs médias, leurs liens en clair et bien sûr le pseudo des gens qui vous les ont envoyés.
Enfin, l’outil récupère également une liste de vos followers et de vos followings ce qui peut également servir pour d’autres choses.
Si le script pour intéresse, son code est sur Github ainsi que les explications techniques pour le lancer.