Korben, roi d’internet, logo bébé avec des lunettes en mode thug life Korben, roi d’internet, logo bébé avec des lunettes en mode thug life

Korben Upgrade your mind

Scrapy – Un framework dédié au crawl et à l’extraction de données en ligne

Si votre passion dans la vie, c’est de programmer des bots qui vont crawler des sites web pour en extraire le contenu afin d’alimenter vos propres bases données, vous serez surement heureux de découvrir Scrapy ?

Ce framework dédié au parcours de site et à l’extraction de données structurées dans les pages web peut être utilisé dans de nombreuses situations… Par exemple pour faire du monitoring, extraire des liens, ou encore récupérer du contenu éditorial…etc.

Scrapy est léger, facile à comprendre (ça utilise du Xpath et un système de règles), et fonctionne sous Windows, Linux, Mac, BSD…etc (c’est du Python). Voici ce que ça donne par exemple pour extraire les liens des derniers torrents mis en ligne sur Mininova.

class MininovaSpider(CrawlSpider):

    name = 'mininova.org'
    allowed_domains = ['mininova.org']
    start_urls = ['http://www.mininova.org/today']
    rules = [Rule(SgmlLinkExtractor(allow=['/tor/d+']), 'parse_torrent')]

    def parse_torrent(self, response):
        x = HtmlXPathSelector(response)

        torrent = TorrentItem()
        torrent['url'] = response.url
        torrent['name'] = x.select("//h1/text()").extract()
        torrent['description'] = x.select("//div[@id='description']").extract()
        torrent['size'] = x.select("//div[@id='info-left']/p[2]/text()[2]").extract()
        return torrent

Toute la doc et le soft sont disponibles sur le site officiel de Scrapy. Ca promet de longues heures d’amusement en perspective !


Installer le shell Bash (Linux) sous Windows 10

L’année dernière, ça ne vous a pas échappé, Bash a fait son apparition sous Windows 10. C’est pour moi, la meilleure chose qui soit arrivée à Windows depuis un moment, car ça permet de lancer des outils Linux et de développer ses propres scripts Shell directement sous Windows. Le pied !

Mais même si c’est parfaitement fonctionnel, il faut quand même…

Lire la suite


Plus de 60 idées pour votre Raspberry Pi

Nous sommes nombreux à nous être procuré un petit ordinateur Raspberry Pi pour nous lancer dans des projets de ouf malade… C’est très cool, mais à part le classique Media Center XBMC, qu’avez-vous fait avec votre Raspberry Pi ?

Si vous séchez niveau idées, voici une petite sélection…

Lire la suite


Une astuce pour rendre Windows 10 plus rapide

Si vous trouvez que Windows 10 est un peu lent, que vos applications ne se lancent pas très vite, que vos compilations prennent du temps, voici une petite astuce débusquée par Brominou pour accélérer le bouzin.

Cliquez dans la zone de recherche de la barre Windows et tapez le mot clé « Performances ». Puis cliquez sur « Régler l’apparence et les performances de Windows » …

Lire la suite


Changer d’adresse IP rapidement

Une petite astuce pour ceux qui ne connaissent pas. Comment changer d’adresse IP à la volée.
Il suffit d’en demander une nouvelle à son provider si celui-ci accepte les IP dynamiques. Pour vérifier que vos manipulation ont eu l’effet escompté, vérifiez quelle est votre adresse IP….

Lire la suite