o3 - Le nouveau modèle IA d'OpenAI qui bat tous les records

par Korben -

Vous vous souvenez de TARS, l’ordinateur super intelligent du film Interstellar ? Et bien accrochez-vous à votre souris, car OpenAI vient de dévoiler quelque chose qui s’en rapproche dangereusement : o3.

Il s’agit de leur tout nouveau modèle d’intelligence artificielle spécialisé dans le raisonnement, et ses performances bousculent vraiment les standards actuels du domaine !

Première chose à savoir, o3 n’est pas un simple modèle de langage comme les autres. C’est un système qui utilise ce qu’OpenAI appelle le “private chain of thought” (chaîne de pensée privée). Concrètement, avant de répondre à une question, le modèle développe un véritable dialogue interne, comme un expert qui prendrait le temps d’analyser un problème sous tous ses angles avant de formuler une réponse. Cette approche s’inspire directement de la façon dont les humains résolvent des problèmes complexes.

Pour comprendre l’ampleur de l’innovation, imaginez un mathématicien face à un problème complexe : il ne se précipite pas sur la première solution venue, mais décompose le problème, explore différentes pistes, vérifie ses hypothèses… C’est exactement ce que fait o3, mais à une vitesse et une échelle inédites.

Et pourquoi être passé directement d’O1 à o3 ?

C’est simplement pour éviter tout conflit avec la marque O2, l’opérateur télécom britannique. Sam Altman, le PDG d’OpenAI, a d’ailleurs fait preuve d’autodérision lors de l’annonce : “Fidèles à notre tradition d’être vraiment mauvais pour choisir des noms, nous l’appellerons o3”.


Et les résultats aux benchmarks annoncés par OpenAI sont impressionnants.

  • ARC-AGI (Abstract Reasoning Challenge) : C’est un test qui évalue la capacité à résoudre des problèmes de logique abstraite, similaire aux matrices de Raven utilisées pour mesurer l’intelligence humaine. Avec 87,5%, o3 dépasse la moyenne humaine de 85%. Son score est plus de trois fois supérieur à celui d’o1 en utilisant moins de puissance de calcul.
  • AIME (American Invitational Mathematics Examination) : Il s’agit d’un des examens de mathématiques les plus prestigieux aux États-Unis, réservé aux 5% meilleurs élèves en mathématiques. Avec 96,7%, o3 réalise une performance exceptionnelle en ne manquant qu’une seule question.
  • GPQA Diamond : Ce benchmark contient des questions de niveau master dans les domaines scientifiques, nécessitant une compréhension approfondie et la capacité à faire des liens entre différents concepts. Le score de 87,7% signifie qu’o3 surpasse significativement les performances des experts humains.
  • Frontier Math d’EpochAI : o3 établit un nouveau record en résolvant 25,2% des problèmes, alors qu’aucun autre modèle ne dépasse 2%, démontrant une avancée significative dans la résolution de problèmes mathématiques complexes.
  • SWE-Bench Verified : Dans ce benchmark d’ingénierie logicielle, o3 surpasse o1 avec une marge impressionnante de 22,8%.
  • Codeforces : o3 a atteint un classement remarquable de 2727 points, dépassant même le score du Chief Scientist d’OpenAI qui est de 2665 points.

Pour mettre ces résultats en perspective, le précédent modèle o1 plafonnait à 25-32% sur ARC-AGI.

OpenAI propose une approche modulaire avec deux versions de son modèle :

  • o3 : La version complète est conçue pour les tâches nécessitant une analyse approfondie, comme la recherche scientifique, l’analyse de données complexes ou la résolution de problèmes mathématiques avancés. Imaginez un assistant de recherche virtuel capable de formuler des hypothèses pertinentes et de proposer des pistes de recherche innovantes.
  • o3-mini : Cette version allégée offre trois niveaux de raisonnement adaptables selon les besoins : Mode “faible” pour les tâches quotidiennes simples (comme la rédaction d’emails), le Mode “moyen” pour des analyses plus poussées (comme la synthèse de documents) et le Mode “élevé” pour des tâches complexes nécessitant un raisonnement structuré

La véritable innovation d’o3 réside donc dans sa capacité à générer et exécuter ses propres “programmes” de raisonnement. Pour comprendre cette avancée, prenons une analogie : alors que les modèles traditionnels fonctionnent comme une immense bibliothèque de réponses préfabriquées, o3 agit plutôt comme un chercheur qui élabore de nouvelles théories en combinant ses connaissances de manière inédite.

Cette approche est particulièrement gourmande en ressources - un seul problème complexe peut nécessiter le traitement de dizaines de millions de tokens (unités de texte). Malgré ses performances impressionnantes, o3 fait face à plusieurs défis majeurs :

  • Ressources computationnelles : Avec un coût estimé jusqu’à 20$ par tâche en mode haute performance, l’utilisation d’o3 pourrait être limitée aux cas d’usage à haute valeur ajoutée.
  • Consommation énergétique : La puissance de calcul requise soulève des questions importantes sur l’impact environnemental de ces systèmes.
  • Limites cognitives : Paradoxalement, o3 peut encore échouer sur des tâches qui semblent simples pour un humain, comme certains types de raisonnement par analogie ou la compréhension du contexte social.

Vous l’aurez compris, o3 représente une avancée significative dans la quête de l’Intelligence Artificielle Générale (AGI). Si nous n’y sommes pas encore, ce modèle démontre qu’il est possible de créer des systèmes capables d’un raisonnement structuré et adaptatif, s’approchant un peu plus de la façon dont les humains résolvent des problèmes complexes.

C’est cool non ? En tout cas, j’ai hâte de tester ça !

Source