Le web scrapping facile avec Ferret

Le 5 octobre 2018 par Korben -

Si vous voulez faire un peu de webscrapping, c’est-à-dire extraire de manière automatisée les informations présentes sur une page web, à des fins de test, pour du machine learning, pour faire de la stat ou tout simplement pomper des data, voici Ferret.

Ferret est un outil sous licence MIT qui s’est donné pour but de rendre tout cela très simple, à l’aide de son propre langage déclaratif. Cela permet de se focaliser uniquement sur la donnée à récupérer en faisant abstraction des détails techniques.

Voici un exemple de code :

LET google = DOCUMENT("https://www.google.com/", true) INPUT(google, 'input[name="q"]', "korben") CLICK(google, 'input[name="btnK"]') WAIT_NAVIGATION(google) LET result = ( FOR result IN ELEMENTS(google, '.g') RETURN { title: ELEMENT(result, 'h3 > a'), description: ELEMENT(result, '.st'), url: ELEMENT(result, 'cite') } ) RETURN ( FOR page IN result FILTER page.title != NONE RETURN page )

Dans cet exemple, Ferret ouvre la page d’accueil de Google, entre un mot dans le champ de recherche, puis clique sur le bouton “Search”.

Le script patiente, le temps que la page se charge, puis lance une itération sur tous les résultats de recherche pour place le titre, l’url et la description dans des variables. Il applique ensuite un filtre pour éliminer les contenus vides avant d’afficher le contenu récupéré.

Le projet en est encore à ses débuts, mais je pense que ce sera intéressant à suivre.

Décuplez votre potentiel créatif avec l'Offre Unique de o2switch

Contenu partenaire

Vous en avez assez d'être bridé par les restrictions de votre hébergeur actuel ? Il est temps de passer à la vitesse supérieure !

L'Offre Unique de o2switch est LA solution pour libérer enfin tout votre potentiel créatif.

Un espace disque illimité pour stocker tous vos projets, des bases de données à volonté pour gérer vos données sans contrainte, et une bande passante sans limites pour faire face à n'importe quel pic de trafic. Tout ça, à portée de clic grâce à l'interface cPanel ultra intuitive, même si vous débutez. Installez WordPress, gérez vos emails, déployez vos outils... en toute simplicité !

Et comme votre tranquillité d'esprit est primordiale, o2switch héberge vos données en France, avec un support 24/7 et des sauvegardes quotidiennes pour ne rien laisser au hasard. Cerise sur le gâteau : votre nom de domaine est offert !

Vous hésitez encore ? Avec la promo actuelle, l'Offre Unique passe à seulement 4,2 € HT/mois. C'est le moment de sauter le pas et de donner vie à tous ces projets que vous rêvez de réaliser. Votre futur vous créatif vous remercie déjà !

Découvrez vite L'Offre Unique