Récupérez le contenu de n'importe quel site avec Web Harvest

Le 18 octobre 2008 par Korben -

Ce matin, je vais vous présent une application un peu hardcore car elle est assez complexe à utiliser mais vraiment unique et magique !

Ça s’appelle Web-Harvest, c’est open source et ça permet en fait d’extraire des informations à partir de pages web de manière automatique.

En gros, ça se connecte sur le site de votre choix et selon le paramètrage que vous lui avez donné, ça peut vous récuperer tout ce que vous voulez sans vous encombrer du html superflu. En effet, lorsque vous voulez parser du contenu à partir de sites, la donnée est souvent noyée au milieu de tout un tas de code html pas terrible à gérer et à nettoyer de manière automatique.

Web-Harvest fonctionne sur le principe suivant : Il récupére le code html des pages que vous avez demandé puis avec un peu de XSL, de Regexp et de XQuery, ressort uniquement la donnée dont vous avez besoin. Je ne vous cache pas que l’idée de la chose, c’est bien d’automatiser du pompage à grande échelle sur des sites web à des fins diverses comme par exemple du benchmark de prix ou de la récupération de contenu multimédia sans API…etc etc

Si vous n’avez pas trop mal à la tête, je vous invite à vous pencher dessus, c’est passionnant et c’est en java donc compatible avec toutes les plateformes.

Vous trouverez plus d’infos sur le site de WebHarvest

La clé de la réussite pour votre TPE/PME : l'hébergement web o2switch

Contenu partenaire

Vous cherchez un hébergement web professionnel pour propulser votre entreprise ? Ne cherchez plus.

Avec l'Offre Unique de o2switch, offrez à votre TPE/PME l'hébergement qu'elle mérite pour viser les sommets.

Boostez la vitesse de votre site et vos applications avec 12 CPU et 48 Go de RAM. Stockez sans compter grâce à l'espace disque illimité. Soyez serein avec des sauvegardes quotidiennes automatiques et un support technique toujours disponible. Tout ça sur des serveurs sécurisés, hébergés en France.

Pilotez votre activité en ligne du bout des doigts, sans connaissances techniques, via l'interface cPanel. Site web, outils, emails... tout est centralisé !

Le meilleur dans tout ça ? L'Offre Unique est à seulement 4,2 € HT/mois. C'est le moment d'offrir à votre entreprise l'hébergement qu'elle mérite pour décoller. Avec o2switch, dites adieu aux problèmes techniques et bonjour à la croissance !

Découvrez vite l'Offre Unique