Claude Sonnet 3.7 - Je vous dis tout sur le nouveau modèle de raisonnement d'Anthropic
Vous souvenez-vous de ces profs de maths qui vous demandaient de “montrer votre travail” quand vous vous contentiez juste de donner la réponse à une formule ? Un résultat ne leur suffisait pas, et il fallait détailler la démarche, étape par étape.
Et bien, depuis quelque temps, des LLMs d’OpenAI (o1, o3) et de DeepSeek (R1) font la même chose avec ces modèles qui font preuve de “réflexion”. Et la bonne nouvelle, c’est qu’Anthropic vient de sortir cette nuit Claude 3.7 Sonnet, son nouveau modèle d’IA qui non seulement vous donne la réponse, mais qui peut aussi vous montrer comment il y est arrivé.
La particularité de Claude 3.7 Sonnet, c’est sa capacité à fonctionner comme un modèle de raisonnement hybride. En termes simples, il peut vous donner deux types de réponses :
- Des réponses rapides, presque instantanées, comme le font déjà la plupart des modèles d’IA
- Des réponses plus élaborées, où vous pouvez voir son processus de réflexion étendue, pas à pas
Et cette seconde approche est comparable à ce qui se passe dans votre cerveau lorsque vous prenez le temps de résoudre un problème complexe. Vous ne vous contentez pas d’avoir une intuition, vous développez votre raisonnement étape par étape.
Rendre visible le processus de réflexion de l’IA présente des avantages, notamment en termes de transparence et de confiance. Ça permet de voir comment Claude est arrivé à une conclusion et ainsi vérifier son raisonnement pour spotter des erreurs éventuelles et bien sûr mieux comprendre sa démarche voire apprendre de sa méthode de réflexion. Et bien sûr ajuster par la suite vos questions / prompts pour obtenir des réponses encore meilleures.
C’est particulièrement précieux dans des domaines comme les mathématiques, la physique, ou la programmation, où le processus est aussi important que le résultat final.
La cohabitation de ces 2 modes de fonctionnement rappelle vraiment le fonctionnement du cerveau humain qui justement est capable d’effectuer soit un raisonnement rapide, soit une réflexion profonde. C’est d’ailleurs tout l’objet du livre Système 1 / Système 2 de Daniel Kahneman (lien affilié) qui explique justement ça.
Le plus fort avec Claude 3.7 Sonnet, c’est que vous pouvez littéralement définir un budget de réflexion. Ainsi, si vous utilisez l’API d’Anthropic, vous pouvez spécifier exactement combien de tokens (unités de texte) Claude peut utiliser pour sa réflexion.
import anthropic
client = anthropic.Anthropic(
# defaults to os.environ.get("ANTHROPIC_API_KEY")
api_key="my_api_key",
)
message = client.messages.create(
model="claude-3-7-sonnet-20250219",
max_tokens=20000,
temperature=1,
messages=[],
thinking={
"type": "enabled",
"budget_tokens": 16000
}
)
print(message.content)
Comme ça, vous pouvez lui dire de prendre exactement 30 secondes pour réfléchir à un problème ou 5 minutes pour analyser une question en profondeur.
Vous pouvez ainsi adapter la puissance de réflexion en fonction de la complexité du problème ou de l’importance de la tâche. Comme ça, pour un calcul simple, vous ne gaspillez pas de ressources, mais pour une analyse critique d’un contrat juridique par exemple, vous pouvez le laisser prendre son temps pour avoir la meilleure analyse possible.
En mode de réflexion étendue, Claude 3.7 Sonnet dispose maintenant d’une capacité impressionnante de 128 000 tokens en sortie, ce qui est le minimum pour développer des raisonnements très détaillés pour des problèmes complexes.
Ce nouveau modèle montre également des améliorations particulièrement impressionnantes dans le domaine du code et du développement web frontend. Des tests menés cette nuit par des services comme Cursor, Cognition, Vercel et Replit ont confirmé que Claude excelle désormais dans :
- La gestion de bases de code complexes
- L’utilisation d’outils avancés
- La planification de modifications de code
- La création d’applications web sophistiquées
- La génération de code propre et prêt à la production
Et les perf sur des benchmarks techniques comme SWE-bench et TAU-bench sont excellents. Par exemple, sur SWE-bench Verified, Claude 3.7 Sonnet atteint jusqu’à 70,3% en “high compute” (avec des techniques d’optimisation avancées) et 63,7% en mode standard. Et contrairement à ce qu’on pourrait penser, cette très bonne capacité à pondre du code (ou à le corriger) ne vient pas seulement de nouvelles données d’entraînement, mais aussi de la possibilité pour le modèle de réfléchir plus profondément aux problématiques liées au code.
Claude 3.5 Sonnet était déjà le modèle IA préféré des devs (et le mien !!) et cela même face à des modèles récents comme OpenAI o3… et bien là, avec sa version 3.7, Anthropic remet une bonne longueur d’avance.
Cela fonctionne bien, car justement, la “pensée” par étapes est ce qui permet à un bon développeur de faire un bon code. Il décompose le problème, planifie son approche, et teste chaque partie avant de finaliser. Et bien Claude 3.7 Sonnet peut maintenant faire tout pareil !
En complément de cette nouvelle version, Anthropic a également dévoilé Claude Code, un outil de coding utilisant des agents, qui est dispo en preview pour les développeurs. Et ce n’est pas simplement un assistant de codage basique, car il peut rechercher et lire du code, modifier des fichiers, écrire et exécuter des tests, utiliser Git pour commit et push vers GitHub ou encore exécuter des outils en ligne de commande.
Et bien sûr, tout cela en vous tenant informé à chaque étape du processus.
Selon Anthropic, lors des tests initiaux, Claude Code a pu accomplir en une seule passe des tâches qui prendraient normalement plus de 45 minutes de travail manuel. Les premiers testeurs ont d’ailleurs apprécié son mode de développement guidé par les tests (TDD), tout ce qui est débogage de problèmes complexes et les refactorisations à grande échelle ! J’ai hâte de tester ça !
Claude Code est également un client MCP (Model Context Protocol), ce qui signifie que vous pouvez étendre ses fonctionnalités avec des serveurs comme Sentry, GitHub ou la recherche web. Cette flexibilité permet d’adapter l’outil à vos besoins spécifiques et d’améliorer son efficacité dans votre flux de travail.
Et si vous n’êtes pas encore prêt pour Claude Code, car c’est trop barbu, Anthropic a également amélioré l’expérience de dev directement sur Claude.ai. L’intégration GitHub est maintenant disponible sur tous les forfaits, ce qui permet aux dev de connecter leurs dépôts de code directement à Claude afin que vous puissiez corriger des bugs, développer de nouvelles fonctionnalités ou encore créer de la documentation très rapidement.
Et même sans activer le mode de réflexion étendue, Claude 3.7 Sonnet représente une excellente mise à niveau par rapport à Claude 3.5 Sonnet… Je vous invite à faire vos propres tests. D’ailleurs, cette mise à jour fait des distinctions plus nuancées entre les demandes dangereuses et inoffensives, réduisant les refus inutiles de 45% par rapport au modèle précédent. Cela signifie que Claude est maintenant moins susceptible de vous envoyer chier quand vous lui demandez quelque chose de parfaitement légitime, mais qui contient des mots pouvant déclencher ses filtres de sécurité. Cool non ?
Ce processus de pensée peut parfois sembler plus détaché et moins personnel que les réponses habituelles de Claude, mais c’est parce qu’Anthropic n’a pas appliqué le même entraînement de caractère sur cette partie, préférant donner à son modèle toute la liberté nécessaire pour “penser” efficacement, même si cela implique de suivre parfois des pistes incorrectes ou de formuler des idées à moitié cuites, comme nous le faisons tous.
Bien sûr, comme toute technologie, Claude 3.7 Sonnet n’est pas sans défauts, car son coût reste important. On est à 3$ par million de tokens en entrée et 15$ par million de tokens en sortie, y compris les tokens de réflexion. De plus, la fidélité du processus de réflexion n’est pas garantie… Ce que je veux dire par là, c’est que ce qu’il montre dans son “processus de pensée” n’est pas une représentation à 100% exacte de ce qui se passe dans le modèle neuronal.
Enfin, y’a toujours des histoires de sécurité… car qui dit “processus de pensée” visible dit acteurs malveillants qui pourraient y trouver des failles. Mais bon, ça c’est la vie de tous les modèles IA, rien de bizarre.
Notez aussi que bien que Claude 3.7 soit dispo pour tous les comptes, même les gratuits, pour bénéficier de ce mode de réflexion étendue, vous devrez avoir un compte payant.
Dans son article d’annonce, pour illustrer les capacités d’agent améliorées de Claude 3.7 Sonnet, Anthropic a réalisé une expérience plutôt cool : faire jouer le modèle à Pokémon Red, le classique de la Game Boy.
Là où les versions précédentes de Claude échouaient lamentablement, ne parvenant même pas à sortir de la maison de départ à Bourg Palette, Claude 3.7 Sonnet a progressé beaucoup plus loin, battant 3 champions d’arène et obtenant leurs badges !
Ça montre que ce nouveau modèle est capable de :
- Maintenir sa concentration sur un objectif à long terme
- Essayer différentes stratégies
- Remettre en question ses hypothèses précédentes
- Améliorer ses propres capacités au fur et à mesure de sa progression
Voilà pour mon petit topo sur cette nouvelle version de Claude. Cette semaine c’est rock’n’roll niveau planning pour moi, mais j’essayerai de vous préparer des petits contenus sympas sur ça pour YouTube.