ArchiveBox - Un clone d'Archive.org à héberger vous-même

Image illustrant l'article : ArchiveBox - Un clone d'Archive.org à héberger vous-même

ArchiveBox - Un clone d'Archive.org à héberger vous-même

par Korben -

Vous connaissez sans doute Archive.org et la WayBack Machine qui permettent de remonter dans le passé en allant explorer les versions archivées de milliers de pages web.

Et bien avec ArchiveBox c’est un peu le même délire, sauf que là c’est vous qui gérez et autohébergez l’archivage.

Simplement en indiquant une ou plusieurs URL à ArchiveBox, l’outil ira récupérer l’ensemble des fichiers qui composent la page pour en conserver une copie en dur sur votre serveur.

Capture d’écran de la page d’accueil d’ArchiveBox

Archivebox peut s’utiliser en ligne de commande et est capable de récupérer les URLs que vous mettez de côté dans Pocket, Pinboard, Instapaper, Wallabag, Shaarli, Delicious, etc. ou dans n’importe quel flux RSS, HTML, JSON, Markdown ou liste au format texte.

Logo d’ArchiveBox

ArchiveBox stockera du HTML mais aussi les JS, CSS, PDF, médias (vidéos YouTube compris), et images associées à la page ciblée. Cela vous permettra de garder une trace de ce qui est important à vos yeux, peu importe si le site qui hébergeait ce contenu change, ou disparait.

L’outil est codé en Python et utilise wget, chromium, et youtube-dl et est intégrable dans un workflow plus vaste afin de programmer des récupérations successives selon vos envies.

Schéma montrant comment ArchiveBox fonctionne

Toute la donnée récupérée est statique et indexée dans des fichiers JSON. Il est simple ensuite de parser ces fichiers pour vos traitements ou vos recherches.

Pour découvrir ArchiveBox, c’est ici. La doc est ici. Et pour ceux qui veulent tester une démo, il y en a une ici.