Korben, roi d’internet, logo bébé avec des lunettes en mode thug life Korben, roi d’internet, logo bébé avec des lunettes en mode thug life

Korben Upgrade your mind

RoboBrowser – Une bibliothèque Python pour scraper et faire surfer votre code

Si vous voulez simuler une présence humaine sur le web, oubliez les macros qui squattent votre clavier et votre souris et passez à RoboBrowser. Cette bibliothèque Python permet d’aller sur la page web de votre choix, remplir des formulaires, les soumettre, récupérer des contenus ou cliquer sur des liens. C’est un scraper avec des notions de navigation web un peu plus poussées.

Alors oui effectivement, cela peut servir à des spammeurs de commentaires, mais je pense que les mecs ne m’ont pas attendu. Par contre, ce qui est cool, c’est que si vous développez vous-même vos outils et que vous vous connectez à des plateformes extérieures qui n’ont pas d’API, il est parfaitement envisageable grâce à RoboBrowser, d’intégrer ces plateformes dans vos workflows.

Voici un exemple de code où RoboBrowser est utilisé pour récupérer les paroles d’une chanson :

import re
from robobrowser import RoboBrowser

# Browse to Genius
browser = RoboBrowser(history=True)
browser.open('http://genius.com/')

# Search for Porcupine Tree
form = browser.get_form(action='/search')
form                # <RoboForm q=>
form['q'].value = 'porcupine tree'
browser.submit_form(form)

# Look up the first song
songs = browser.select('.song_link')
browser.follow_link(songs[0])
lyrics = browser.select('.lyrics')
lyrics[0].text      # nHear the sound of music ...

# Back to results page
browser.back()

# Look up my favorite song
song_link = browser.get_link('trains')
browser.follow_link(song_link)

# Can also search HTML using regex patterns
lyrics = browser.find(class_=re.compile(r'blyricsb'))
lyrics.text         # nTrain set and match spied under the blind...

Et voici un autre exemple ou RoboBrowser est utilisé pour remplir un formulaire :

from robobrowser import RoboBrowser
browser = RoboBrowser()
browser.open('http://twitter.com')

# Get the signup form
signup_form = browser.get_form(class_='signup')
signup_form         # <RoboForm user[name]=, user[email]=, ...

# Inspect its values
signup_form['authenticity_token'].value     # 6d03597 ...

# Fill it out
signup_form['user[name]'].value = 'python-robot'
signup_form['user[user_password]'].value = 'secret'

# Submit the form
browser.submit_form(signup_form)

 


Batterie Anker PowerBank 13400 mAh

-25 % de réduction

Livré avec son câble d’alimentation USB-C, Housse de protection et Guide de démarrage rapide

Et compatible avec la Nintendo Switch, sa vitesse de charge va jusqu’à 80% plus vite que les batteries non certifiées par Nintendo

En Savoir +



Réponses notables

  1. Pour ma part, j’utilise CasperJS (nécessite PhantomJS).

    Il est très puissant et permet de généré des images de la page capturé.

  2. J4N says:

    Si ca intéresse, il y a un très bon équivalent en .Net: ScrapySharp

  3. Rien à voir mais +1 pour le mec qui a cherché les paroles de “Trains” de Porcupine Tree :slight_smile:

Continuer la discussion sur Korben Communauté

2 commentaires supplémentaires dans les réponses

Participants

Comment découper une carte SIM sans la bousiller

vec certains téléphone, ça devient une vraie galère au niveau des cartes SIM. Entre la SIM classique (MiniSIM), la MicroSIM et la NanoSIM, difficile de s’y retrouver et surtout de passer d’une plus grande à une plus petite sans devoir attendre que les opérateurs veuillent bien se donner la peine de vous l’envoyer…

Lire la suite


6 outils pour cloner un disque dur sous Windows et Linux

Cloner c’est facile… Bon, ok, cloner un bébé, c’est déjà plus complexe mais un disque dur, c’est l’enfance de l’art… Alors bien sûr le logiciel le plus connu pour ça, est Ghost de Symantec mais au prix de 999,99 euros HT (j’déconne, je ne connais pas le prix en vrai), c’est déjà plus rentable de se mettre à cloner son petit frère artisanalement dans le garage…

Lire la suite