Aller au contenu
Korben, roi d’internet, logo bébé avec des lunettes en mode thug life

Comment convertir un site web en ebook

Hier, j’ai trouvé un site web sympa avec tellement d’articles que j’avais la flemme de tout lire sur l’ordi. Du coup, je me suis dit que j’allais en faire un bouquin pour mon Kindle, histoire que ça se digère mieux.

Voici donc la méthode que j’ai utilisée qui vous servira peut-être…

Tout d’abord, je devais récupérer en local tous les articles au format HTML. J’ai donc utilisé un petit wget mais vous pouvez aussi utiliser un soft comme httracks (ou similaire). Vu que je ne voulais pas m’encombrer de pages inutiles (contact, index…etc.) et garder uniquement les pages d’articles, je suis tombé une longue page « archives » sur le site, qui rassemble toute la liste des articles du blog année par année.

Je suis donc parti, pour mon scan, de cette page avec une récursivité minimale pour ne récupérer que les articles linkés sur cette page d’archives.

Bref, une fois que j’avais terminé, j’avais sur mon disque dur l’ensemble des articles du site + une jolie page d’archive.

J’ai ensuite nettoyé la page d’archive pour lui donner le format suivant (en html) :

<html>
<body>
<h1>Table des matières</h1>
<p style="text-indent:0pt">
<a href="file1.html">Premier article</a><br/>
<a href="file2.html">Second article</a><br/>
.
.
.
</p>
</body>
</html>

L’idée c’est de créer un sommaire des pages que vous avez récupéré. Pour nettoyer cette page d’archive, j’ai du jouer avec quelques « rechercher-remplacer » dans un éditeur de texte. Mais si vous n’avez aucune page d’archives, vous pouvez aussi récupérer le résultat d’un « ls » ou d’un « dir » et habiller chaque ligne avec le code html qui va bien. Alphabetizer peut vous aider… Ou alors quelques expressions régulières. L’important, c’est d’avoir les liens vers chaque fichier.

Ensuite, ce sommaire, on va le donner à « manger » à Calibre, le célèbre gestionnaire d’ebooks.

Il suffit donc de glisser-déposer cette page d’archive nettoyée dans Calibre, qui se chargera alors d’aller chercher chaque article pour en faire un ebook. À vous ensuite de le convertir en epub ou un autre format de votre choix.

calibre

À partir de là, vous pouvez donc le transférer sur votre liseuse. Moi je me suis rendu compte qu’il y avait pas mal de pages « déchet » avant chaque article. J’ai donc ouvert mon EPUB avec l’outil Sigil, qui est un éditeur d’ebook.

Puis j’ai fait le ménage pour supprimer toutes les pages inutiles (chez moi, elle se terminaient par _000). Puis j’ai du faire à nouveau un rechercher-remplacer dans la page Archives via Sigil pour re-mapper chaque lien du sommaire avec la page correspondante en _001.

sigil

Et voilà ! Une petite sauvegarde, un nouveau transfert via Calibre sur ma liseuse et le tour est joué !

Bon j’ai conscience que tout ceci est artisanal et vous me sortirez peut-être des outils ou des scripts qui font tout ça automatiquement, mais c’est moins drôle ^^. N’hésitez pas quand même à me les indiquer, je les ajouterai à l’article.

Merci et bonne lecture à tous !


Les articles du moment