L’IA joue à Super Mario… et à 13 ans j'étais plus fort qu'elle

par Vincent Lautier -

– Article rédigé par Vincent Lautier –

Super Mario Bros est désormais utilisé comme terrain d’entraînement pour l’intelligence artificielle. Des chercheurs de l’Université de Californie à San Diego ont utilisé le jeu culte pour tester différents modèles d’IA. Leur constat ? Ce benchmark est plus complexe que les précédents et met clairement en avant les difficultés des modèles à raisonner en temps réel.

L’expérience : un Mario piloté par IA

Pour cette étude, le labo Hao AI n’a pas utilisé le jeu original de 1985, mais une version émulée intégrée à GamingAgent, un framework conçu en interne. L’IA recevait des captures d’écran et des instructions de base du style : “Si un obstacle approche, saute à gauche”. À partir de là, elle générait du code Python pour contrôler Mario. L’idée, c’était de voir comment ces modèles pouvaient s’adapter et développer des stratégies de jeu.

Source : techcrunch.com

Les modèles qui réfléchissent trop pour jouer convenablement

Surprise : les modèles d’IA censés être les plus intelligents, comme GPT-4o d’OpenAI, se sont avérés plutôt mauvais. Leur problème ? Ils prennent trop de temps pour décider quoi faire. Et dans Super Mario Bros, si tu mets trois secondes à choisir entre sauter ou courir… tu meurs. À l’inverse, des modèles moins sophistiqués mais plus réactifs, comme Claude 3.7 d’Anthropic, ont mieux réussi.

Un vrai test pour l’IA ?

Utiliser des jeux vidéo pour évaluer l’IA, ce n’est pas nouveau, mais certains chercheurs commencent à remettre en question leur pertinence. Certes, Super Mario Bros pousse l’IA à anticiper et réagir vite, mais ce n’est qu’un jeu, avec des règles fixes et un environnement limité. Andrej Karpathy, chercheur chez OpenAI, parle même d’une “crise d’évaluation” : on ne sait plus trop quels tests reflètent vraiment les capacités des modèles actuels.

Si Super Mario Bros montre les limites de certaines IA en temps réel, ça ne veut pas dire que ces modèles sont inutiles ailleurs. L’évaluation de l’IA doit prendre en compte des situations plus complexes et variées.

Article publié par moi même, Vincent Lautier, invité par l’ami Korben. Vous pouvez me suivre sur Bluesky, ou aller lire les petits tests que je vous publie de temps en temps dans la catégorie “Gadgets Tech” !