Gemini 2.5 - L'IA de Google qui prend son temps avant de l’ouvrir 

par Korben ✨ -

Je ne suis pas un grand utilisateur d’Ai Studio de Google, et encore moins de leurs modèles open, même si Gemma 3 était plutôt pas mal, j’ai trouvé. L’écosystème IA de Google m’a rarement fait vibrer plus que ça jusqu’à présent.

Mais là je ne pouvais pas faire l’impasse sur Gemini 2.5.

Pourquoi ? Et bien parce qu’ils annoncent un truc qui sort un peu du lot : un modèle qui certes prend son temps mais qui réfléchit vachement bien avant de répondre.

L’idée derrière, c’est ce qu’ils appellent le “AI Reasoning”. En gros, au lieu de dégainer une réponse à la vitesse de l’éclair, quitte à se planter, Gemini 2.5 prend une pause-café virtuelle pour analyser plus en profondeur, vérifier ses infos, bref, raisonner…

Ça utilise plus de temps et de calcul, donc c’est potentiellement plus lent et plus cher, mais Google promet des résultats plus fiables, notamment pour les trucs complexes comme les maths ou le code. C’est une approche intéressante qui change de la course habituelle à la latence minimale.

Avec cette annonce, on est donc sur un modèle qui emboîte le pas des modèles o1 et o3 d’OpenAI mais également de DeepSeek R1 et Anthropic avec la dernière version de Claude. C’est donc clairement une tendance de fond qui pourrait être la base des fameux “Agents IA” autonomes de demain.

Pour l’instant, ce modèle de Google est expérimental et peut traiter différents types d’information… Du texte, des images, etc. Google n’a pas détaillé tout le “etc.”, mais on est sur du multimodal classique. Là où ça devient costaud, c’est la taille de la fenêtre de contexte : 1 million de tokens au lancement (environ 750 000 mots, plus que Le Seigneur des Anneaux complet !), et ils parlent déjà de monter à 2 millions de tokens bientôt. De quoi lui filer des bases de code entières ou des kilomètres de documentation à analyser. Google dit aussi qu’il est particulièrement doué pour créer des web apps visuelles et pour le “coding agentique”.

Alors, est-ce que ça se vérifie sur les benchmarks ? Hé bien Mountain View sort quelques chiffres. Sur Aider Polyglot (édition de code), il s’en sort bien (68.6%), battant les concurrents cités. Par contre, sur SWE-bench Verified (développement logiciel), c’est plus mitigé : avec 63.8%, il dépasse o3-mini et DeepSeek R1, mais il reste derrière le Claude 3.7 Sonnetd’Anthropic (70.3%).

Comme quoi, faut toujours se méfier des annonces triomphales. Sur un autre test multimodal (Humanity’s Last Exam), il obtient 18.8%, ce qui serait “mieux que la plupart” des autres gros modèles. Bref, c’est prometteur sur certains points, mais pas (encore ?) une révolution partout.

Perso, hâte de tester ça avec du code également. C’est souvent là qu’on voit vraiment ce qu’une IA a dans le ventre, surtout vu comme ils insistent sur ses capacités de “coding agentique”. Voir comment il se débrouille pour analyser, corriger ou même écrire du code complexe, ça va être intéressant.

Voilà, pour ma part je vais continuer les tests car c’est tout frais. Je n’ai d’ailleurs pas pu m’empêcher d’écrire cet article en me faisant accompagner de cette nouvelle version. J’ai trouvé ça plutôt pas mal même si je lui préfère encore Claude Sonnet 3.7 qui capte mieux mon délire.

Pour le tester par vous-même, c’est via la plateforme développeur de Google, AI Studio, ou pour les abonnés Gemini Advanced (l’offre payante à 20$/mois). Attention, comme dit plus haut, le “raisonnement” coûte plus cher en ressources, et Google n’a pas encore annoncé le prix de l’API. Ça risque de piquer un peu pour ceux qui voudraient l’intégrer dans leurs projets.

À voir comment ça évolue…

Source