DIAMOND - L'IA qui rêve pour mieux jouer
Et si l’intelligence artificielle apprenait à jouer aux jeux vidéo non pas en y jouant directement, mais en s’entraînant dans une simulation créée par un modèle de diffusion ? C’est exactement ce que propose DIAMOND, une nouvelle méthode d’apprentissage par renforcement qui repousse les limites de l’IA.
DIAMOND, acronyme de “DIffusion As a Model Of eNvironment Dreams”, est le fruit des travaux d’une équipe de chercheurs. Leur objectif ? Créer un agent d’apprentissage par renforcement capable de performer sur des jeux Atari en s’entraînant uniquement dans une simulation. Cette simulation est produite par un modèle de diffusion qui apprend à prédire les évolutions de l’environnement en fonction des actions de l’agent, formant ainsi un monde virtuel idéal pour l’apprentissage.
L’atout majeur de DIAMOND ? Sa capacité à dépasser les limites de la collecte de données du monde réel. L’agent peut ainsi acquérir une vaste expérience en un temps record, sans nécessiter de multiples interactions avec le jeu réel. C’est particulièrement intéressant dans des situations où la collecte de données réelles serait coûteuse, dangereuse, ou simplement irréalisable.
Dans un domaine connexe, Comma.ai, spécialiste de la conduite autonome, adopte une approche similaire pour l’entraînement de ses IA. J’ai eu l’occasion de tester il y a quelques jours leur dernier modèle MLSIM, entraîné uniquement sur des données virtuelles plutôt que sur de vraies images de dashcam et les résultats sont impressionnants !
Cette précision accrue se traduit par de meilleures performances de l’agent. Dans de nombreux jeux, la différence entre une action optimale et une erreur coûteuse peut tenir à quelques pixels. Une représentation fidèle de l’environnement permet donc à l’agent de développer des stratégies plus sophistiquées et robustes.
Pour évaluer leur approche, les chercheurs ont soumis DIAMOND au benchmark Atari 100k. Ce test exigeant impose l’apprentissage de divers jeux Atari avec seulement 100 000 interactions réelles, un nombre extrêmement faible comparé aux millions d’interactions habituellement nécessaires.
Les résultats sont bluffants : DIAMOND a atteint un score moyen normalisé de 1,46 par rapport aux performances humaines, surpassant ainsi les joueurs humains de 46 % en moyenne. C’est un progrès spectaculaire comparé aux méthodes antérieures utilisant des modèles du monde.
DIAMOND ne s’arrête pas là : les chercheurs ont également démontré que leur modèle de diffusion pouvait simuler des environnements 3D complexes, comme le jeu Counter-Strike: Global Offensive. Cette avancée majeure laisse présager des applications passionnantes au-delà du cadre des jeux vidéo 2D.
Voici comment explorer ce système fascinant :
- Clonez le dépôt GitHub :
git clone https://github.com/eloialonso/diamond.git
- Créez un environnement virtuel et installez les dépendances :
cd diamond conda create -n diamond python=3.10 conda activate diamond pip install -r requirements.txt
- Démarrez le monde virtuel Atari pré-entraîné :
python src/play.py --pretrained
- Ou explorez le monde virtuel CS:GO :
git checkout csgo
python src/play.py
En observant les démos, vous serez frappé par la fluidité des animations et la cohérence des interactions, témoignant de l’efficacité de cette approche.
DIAMOND va au-delà de la simple production d’images attrayantes. Cette méthode parvient à capter la dynamique complexe des jeux, intégrant l’état actuel de l’agent et ses actions pour prédire l’évolution de l’environnement. Cela permet le développement de stratégies particulièrement sophistiquées.
Les chercheurs ont expérimenté différents nombres d’étapes de débruitage durant le processus de diffusion pour trouver le juste équilibre : trop peu d’étapes produisent des prédictions floues, tandis que trop d’étapes ralentissent considérablement le processus. Après de nombreux essais, ils ont opté pour trois étapes de débruitage, un bon compromis entre qualité visuelle et rapidité de génération.
Cette capacité à ajuster finement les paramètres ouvre la voie à des applications dans divers secteurs. DIAMOND pourrait, par exemple, simuler des scénarios complexes en robotique ou en gestion de catastrophes.
En conclusion, les implications de DIAMOND vont bien au-delà des simples records sur les jeux Atari. Cette approche ouvre de nouvelles perspectives pour développer des IA capables d’apprendre et de s’adapter dans des environnements complexes et dynamiques, sans nécessairement devoir leur fournir des données réelles, puisqu’il est possible de les générer de manière totalement virtuelle.