ArchiveBox - Un clone d'Archive.org à héberger vous-même

Le 13 mars 2019 par Korben ✨ -

Vous connaissez sans doute Archive.org et la WayBack Machine qui permettent de remonter dans le passé en allant explorer les versions archivées de milliers de pages web.

Et bien avec ArchiveBox c’est un peu le même délire, sauf que là c’est vous qui gérez et autohébergez l’archivage.

Simplement en indiquant une ou plusieurs URL à ArchiveBox, l’outil ira récupérer l’ensemble des fichiers qui composent la page pour en conserver une copie en dur sur votre serveur.

Archivebox peut s’utiliser en ligne de commande et est capable de récupérer les URLs que vous mettez de côté dans Pocket, Pinboard, Instapaper, Wallabag, Shaarli, Delicious, etc. ou dans n’importe quel flux RSS, HTML, JSON, Markdown ou liste au format texte.

ArchiveBox stockera du HTML mais aussi les JS, CSS, PDF, médias (vidéos YouTube compris), et images associées à la page ciblée. Cela vous permettra de garder une trace de ce qui est important à vos yeux, peu importe si le site qui hébergeait ce contenu change, ou disparait.

L’outil est codé en Python et utilise wget, chromium, et youtube-dl et est intégrable dans un workflow plus vaste afin de programmer des récupérations successives selon vos envies.

Toute la donnée récupérée est statique et indexée dans des fichiers JSON. Il est simple ensuite de parser ces fichiers pour vos traitements ou vos recherches.

Pour découvrir ArchiveBox, c’est ici. La doc est ici. Et pour ceux qui veulent tester une démo, il y en a une ici.

Développeurs, découvrez l'hébergement taillé pour vos projets

Contenu partenaire

Vous êtes développeur web ? Alors vous allez adorer l'Offre Unique de o2switch, conçue spécialement pour vous !

Profitez d'une puissance inégalée avec 12 threads CPU et 48 Go de RAM pour des performances à couper le souffle. Déployez vos projets en quelques clics grâce à Softaculous et ses + de 300 scripts prêts à l'emploi.

La vitesse, vous aimez ? Eux aussi ! C'est pour ça qu'ils vous font fait profiter de la technologie NVMe dernière génération et de puissants caches comme Varnish et LiteSpeed. Tout ça avec la sérénité d'un hébergement français sécurisé par un WAF sur-mesure et un support technique toujours à vos côtés.

Et vous savez quoi ? Tout ça est à vous pour seulement 4,2 € HT/mois. Foncez, c'est le moment de coder sans limites et de donner vie à vos projets les plus fous grâce à o2switch !

Découvrez vite L'Offre Unique