ResearchGPT - Comment discuter avec un PDF grâce à l'IA ?

par Korben -

Aujourd’hui, je vais vous parler d’une application vraiment cool qui va changer la façon dont vous interagissez avec les articles de recherche : ResearchGPT. Imaginez pouvoir poser une question à un article de recherche et obtenir une réponse pertinente en quelques secondes ! C’est exactement ce que fait cette application codée avec Flask.

Alors, comment ça marche ?

Et bien, vous pouvez tout simplement entrer un lien vers un PDF dispo en ligne ou uploader votre propre PDF. L’application va ensuite extraire le texte du PDF, créer des “embeddings” à partir du texte et les utiliser via l’API d’OpenAI pour générer une réponse cohérente à votre question. Et ce n’est pas tout : elle renvoie également la source de texte qu’elle a utilisée pour générer la réponse et le numéro de page.

Pour essayer la démo, rendez-vous ici.

Et si vous voulez l’installer vous-même, pas de problème ! Il vous suffit de cloner le dépôt GitHub, d’installer les dépendances et de définir votre clé API OpenAI en tant que variable d’environnement.

Voici un tutoriel pas à pas :

Clonez le dépôt GitHub et installez les dépendances :

git clone https://github.com/mukulpatnaik/researchgpt.git
pip install -r requirements.txt

Pensez ensuite à exporter votre clés API OpenAI comme ceci :

export OPENAI_API_KEY=votre-clé-API

Ensuite, y’a plus qu’à lancer le script comme ceci :

python main-local.py

Pour l’avoir testé, ça fonctionne plutôt bien et on peut comme ça, poser des questions ou récupérer l’info qui nous intéresse directement sans devoir se taper tout le document à lire. Et comme ça donne les accès rapide vers les endroits où se trouve l’info d’origine, c’est top.


Je suis également tombé sur ce script Python qui permet de faire à peu près la même chose mais je n’ai pas encore eu le temps de le tester. Je vous le partage quand même.

En tout cas, je pense que ce genre d’outil peut grandement aider les scientifiques, les journalistes ou les étudiants qui manipulent des tonnes de données planquées dans des PDFs (quelle idée !)

Plus d’infos ici.