Scrapy - Un framework dédié au crawl et à l'extraction de données en ligne

Le 14 mars 2013 par Korben -

Si votre passion dans la vie, c’est de programmer des bots qui vont crawler des sites web pour en extraire le contenu afin d’alimenter vos propres bases données, vous serez surement heureux de découvrir Scrapy ?

Ce framework dédié au parcours de site et à l’extraction de données structurées dans les pages web peut être utilisé dans de nombreuses situations… Par exemple pour faire du monitoring, extraire des liens, ou encore récupérer du contenu éditorial…etc.

Scrapy est léger, facile à comprendre (ça utilise du Xpath et un système de règles), et fonctionne sous Windows, Linux, Mac, BSD…etc (c’est du Python). Voici ce que ça donne par exemple pour extraire les liens des derniers torrents mis en ligne sur Mininova.

class MininovaSpider(CrawlSpider): name = 'mininova.org' allowed_domains = ['mininova.org'] start_urls = ['http://www.mininova.org/today'] rules = [Rule(SgmlLinkExtractor(allow=['/tor/d+']), 'parse_torrent')] def parse_torrent(self, response): x = HtmlXPathSelector(response) torrent = TorrentItem() torrent['url'] = response.url torrent['name'] = x.select("//h1/text()").extract() torrent['description'] = x.select("//div[@id='description']").extract() torrent['size'] = x.select("//div[@id='info-left']/p[2]/text()[2]").extract() return torrent

Toute la doc et le soft sont disponibles sur le site officiel de Scrapy. Ca promet de longues heures d’amusement en perspective !

Décuplez votre potentiel créatif avec l'Offre Unique de o2switch

Contenu partenaire

Vous en avez assez d'être bridé par les restrictions de votre hébergeur actuel ? Il est temps de passer à la vitesse supérieure !

L'Offre Unique de o2switch est LA solution pour libérer enfin tout votre potentiel créatif.

Un espace disque illimité pour stocker tous vos projets, des bases de données à volonté pour gérer vos données sans contrainte, et une bande passante sans limites pour faire face à n'importe quel pic de trafic. Tout ça, à portée de clic grâce à l'interface cPanel ultra intuitive, même si vous débutez. Installez WordPress, gérez vos emails, déployez vos outils... en toute simplicité !

Et comme votre tranquillité d'esprit est primordiale, o2switch héberge vos données en France, avec un support 24/7 et des sauvegardes quotidiennes pour ne rien laisser au hasard. Cerise sur le gâteau : votre nom de domaine est offert !

Vous hésitez encore ? Avec la promo actuelle, l'Offre Unique passe à seulement 4,2 € HT/mois. C'est le moment de sauter le pas et de donner vie à tous ces projets que vous rêvez de réaliser. Votre futur vous créatif vous remercie déjà !

Découvrez vite L'Offre Unique