Entrez vos identifiants

x
OU
Vous avez oublié votre mot de passe ?
Utilisateur wiki : vous n'aviez pas d'email ?

Korben - Site d'actualité geek et tech

Go Top


Portia – Un outil de web scrapping visuel

Portia – Un outil de web scrapping visuel

Je ne sais pas si vous vous souvenez, mais je vous ai déjà parlé de Scrapy, un framework capable de crawler le web et d'en extraire des données structurées qui tourne sous Windows, Mac et Linux. L'avantage de ce genre de truc, c'est de pouvoir capter des données en provenance de sites classiques pour ensuite les réutiliser dans vos propres projets.

Et bien j'ai une bonne nouvelle à vous annoncer puisque les développeurs de Scrapy viennent de mettre en ligne une première version de Portia, un outil de scrapping basé sur Scrapy qui permet de faire la même chose tout au clic, c'est à dire sans mettre les mains dans le code.

Voici une démo, ça a l'air très prometteur.

Les initiateurs du projets réfléchissent à mettre à disposition Portia pour que chacun puisse l'utiliser directement en ligne. Mais en attendant, vous pouvez récupérer les sources sur Github et l'installer chez vous pour voir ce que ça donne.


Facebook Twitter Email Copier Url

5 Responses to “Portia – Un outil de web scrapping visuel”

  1. Symen dit :

    Intéressant!
    Ça ressemble aussi à kimonolabs dont tu as parlé il y a quelques temps, mais avec la possibilité de l’auto-héberger. :)

  2. maxxyme dit :

    et ouvert, surtout !!! :-P

  3. Je vais enfiler ma casquette de troll : cet outil permet de tout simplement automatiser l’extraction de donnée d’un site web. Nous n’avons qu’à lui indiquer la structure d’une page (car les ordinateurs sont puissants mais pas intelligents au point de comprendre comment est hiérarchisé l’info dans un site), et ensuite il sera capable de détecter l’apparition de nouveaux articles ou de changement dans une portion de page, de prendre l’info toute nouvelle toute fraiche que l’on pourra utiliser pour alimenter notre propre site ! Après le danger de cette manœuvre est de créer du contenu dupliqué, et c’est donc là qu’intervient les logiciels de spinning qui permettent de “reformuler” le texte de manière à obtenir un texte différent syntaxiquement mais qui exprime les mêmes choses.
    Les barbus utilisent pour “miner” le web une librairie connue depuis longtemps qui s’appelle CURL. Là, c’est plus “friendly” puisque wysiwig mais pour exploiter les possibilités de l’engin il faut encore avoir la suite du processus bien pensée car copier des infos c’est bien mais il faut encore trouver une valeur ajoutée à cette copie, et sans spolier personne légalement ou même moralement…

  4. la compilation fonctionne bien, mais l’exécutable est buggé
    sudo apt-get install python-pip
    cd slyd
    sudo pip install -r requirements.txt
    sudo twistd -n slyd
    http://localhost:9001/static/main.html
    BUG :
    exceptions.UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xc3 in position 12: ordinal not in range(128)
    si vous avez la solution … :) OS Ubuntu locales FR,EN

  5. DrSnake dit :

    idem, même erreur, à l’install des requirements

A gagner – Des codes abonnement pour F-Secure Key

bigstock

Aujourd'hui je vous propose de gagner des codes pour des abonnements d'un an pour Key, le gestionnaire de mot de passe de F-Secure.

Si vous êtes adeptes des ouvertures de comptes en ligne à tout-va, ce petit soft peut vous être d'une grande utilité, voir pour ceux qui décideraient de renforcer tous leurs mots de passe en cours d'utilisation.

Avec Key vous pouvez stocker tous vos mots de passe et y accéder facilement, sur n'importe quel appareils, desktop ou mobile et même générer des mots de passe renforcés et uniques chaque fois que vous en avez besoin.

Pratique pour ceux qui ont tendance à aller au plus vite en mettant la date de naissance du dernier né ;)

Pour jouer ça se passe tranquillou avec Kontest:

Toutes les fonctionnalités de Key sont listées ici

Vous avez aimé cet article ? Alors partagez-le avec vos amis en cliquant sur les boutons ci-dessous :

Twitter Facebook Google Plus Linkedin email
Rejoignez les 57010 korbenautes
et réveillez le bidouilleur qui est en vous
abonnez-vous en savoir plus
"Vous aimez bidouiller ?" Oui j'adore l'informatique et la technologie
Suivez Korben Un jour ça vous sauvera la vie.. Ou celle d'un(e) ami(e)
  • Rejoignez les 57010 bidouilleurs de la grande famille des Korbenautes
    «Je considère que votre email est aussi important que le mien.»
    Korben
  • Les Derniers Articles du Blog

  • Inscrivez vous aux bon plans

  •  
  • Site hébergé par
    Agarik Sponsor Korben
  • DANS TON CHAT (BASHFR)

    James314 : faire croire que le pere noel n'existe pas
    James314 : pour faire croire que les parents sont genereux
    James314 : c'est fort quand meme
    James314 : tout le monde est si naif....

    -- http://danstonchat.com/3485.html
  • Un boitier externe pour booter des ISO à

    gogo sans se prendre la tête

    Il s'agit d'un boitier externe pour disque dur 2,5" fabriqué par la société Zalman, qui a la particularité d'avoir un petit écran de contrôle et qui permet de choisir l'ISO sur laquelle vous souhaitez booter...lire la suite

    Microsoft récupère vos clés de chiffrement.

    Voici comment les en empêcher

    Si vous avez acheté un appareil sous Windows 10 équipé d'une puce qui chiffre par défaut le disque, ne vous pensez pas en sécurité pour autant : La clé de récupération qui vous permet de déchiffrer vos données...lire la suite

    En ce moment dans l'univers "Raspberry Pi"

    Voir tous les articles »