Nepenthes - Piégez les crawlers web malveillants
Est ce que vous vous souvenez de l’époque bénie où un simple robots.txt à la racine de votre site web suffisait à tenir les robots d’indexation à distance ? Eh bien, cette époque est révolue car aujourd’hui, les crawlers des entreprises d’IA se comportent comme des parasites numériques venant pomper tout votre contenu, ignorant allègrement toute forme de politesse numérique. Pire encore, ils changent constamment de nom et trouvent des moyens de contourner les protections traditionnelles. Bref, ça saoule !
C’est là qu’entre en scène Nepenthes, un outil créé par Aaron B. et nommé ainsi en hommage à ces fascinantes plantes carnivores qui digèrent leurs proies dans leur piège en forme de pichet.
Comme le tarpit sur SSH dont je vous ai parlé il y a quelques mois, le principe est tout aussi efficace. Car plutôt qu’un simple piège statique, Nepenthes crée un labyrinthe infini spécialement conçu pour les crawlers. Chaque page les conduit ainsi vers encore plus de pages, et encore plus de pages, et encore plus de pages, dans une boucle sans fin de liens générés aléatoirement. Le crawler télécharge une URL, voit des liens, les suit… et se retrouve ainsi piégé dans une spirale sans fin.
Voici un exemple de configuration nginx permettant de déployer Nepenthes :
location /nepenthes-demo/ { proxy_pass http://localhost:8893; proxy_set_header X-Prefix '/nepenthes-demo'; proxy_set_header X-Forwarded-For $remote_addr; proxy_buffering off;}
Attention quand même car cet outil est délibérément malicieux. Donc déployez le uniquement si comprenez parfaitement ses implications car autrement les crawlers légitimes (Google, Bing…) pourraient aussi être affectés, impactant potentiellement votre référencement.
Si vous voulez voir ce que ça donne, vous pouvez tester Nepenthes en action sur cette page de démo. C’est volontairement lent car l’idée est de ralentir ces fameux crawler ! Et pour déployer votre propre instance, direction la page du projet qui vous expliquera tout.
Vraiment, je trouve que même si c’est un peu touchy à déployer, Nepenthes est une bonne réponse très créative à ce problème croissant des crawlers sauvages. D’ailleurs, son créateur le décrit comme “une œuvre d’art née de la rage face à l’évolution d’internet en un panoptique d’extraction monétaire”.
Alors qui va mettre ça en place ?