Fugatto - L'IA qui transforme n'importe quel son à la demande

par Korben -

Les magiciens de chez NVIDIA viennent de dévoiler une technologie qui va faire trembler le monde de l’audio. Son petit nom ? Fugatto, un modèle d’intelligence artificielle qui transforme littéralement n’importe quel son sur simple demande textuelle.

Cette IA polyvalente peut jongler avec tous les types de sons : voix, musique, bruitages… Elle peut générer de nouveaux sons, modifier des sons existants ou même inventer des sonorités totalement inédites qui n’existent pas dans la nature.

Vous rêviez de faire miauler une trompette ? De donner un accent italien à votre voix ? Ou peut-être de transformer votre vieille démo acoustique en un morceau électro survitaminé ? Et bien Fugatto peut le faire, et bien plus encore !


Le principe est étonnamment simple : vous fournissez un son et/ou une description textuelle de ce que vous souhaitez, et l’IA s’occupe du reste. Par exemple, vous pourriez lui demander “Fais sonner cette guitare comme si elle était jouée sous l’eau” ou “Transforme cette voix en celle d’un robot mélancolique”. Et le plus fascinant, c’est que Fugatto comprend parfaitement ces instructions poétiques !

Ce qui rend cette technologie vraiment incroyable, c’est sa polyvalence car contrairement aux autres modèles d’IA qui se spécialisent soit dans la musique (coucou Suno), soit dans la voix, Fugatto excelle dans tous les domaines. Tous les tests montrent qu’il égale ou surpasse les modèles spécialisés dans leurs tâches respectives, tout en offrant une excellente flexibilité.

Les applications potentielles sont infinies… Les producteurs de musique pourront prototyper rapidement différents arrangements, les créateurs de jeux vidéo pourront générer des ambiances sonores dynamiques qui s’adaptent au gameplay, les agences de pub pourront facilement adapter leurs spots avec différents accents et les développeurs d’applications pourront créer des assistants vocaux personnalisés.

La véritable prouesse technique de Fugatto réside dans sa capacité à composer des instructions qu’il n’a jamais vues ensemble pendant son entraînement. Par exemple, vous pouvez lui demander de créer le son d’un orage qui se transforme progressivement en chant d’oiseaux ou en musique électro.

Cette polyvalence repose sur une architecture sophistiquée comportant 2,5 milliards de paramètres, entraînée sur plus de 50 000 heures de données audio. L’équipe de chercheurs, dirigée par Rafael Valle, a développé une approche innovante baptisée ComposableART, qui permet de contrôler finement chaque aspect de la génération audio.

Cette technologie bénéficie également d’une fonctionnalité d’interpolation qui permet de doser précisément l’intensité des effets. Vous voulez un accent marseillais léger plutôt que prononcé ? Ou une voix qui passe progressivement de joyeuse à triste ? Ce modèle peut le faire avec une finesse remarquable.

La diversité de l’équipe internationale qui a développé cette technologie, avec des chercheurs venant d’Inde, du Brésil, de Chine, de Jordanie et de Corée du Sud, a d’ailleurs grandement contribué aux capacités multilingues et multi-accents du modèle. J’aurais aimé tester ce truc mais NVIDIA n’a pas encore annoncé de date de sortie publique… OUIN !

Cependant d’autres alternatives existent déjà : Meta propose un kit de développement audio open source, et Google a son propre modèle text-to-music appelé MusicLM.

Vous l’aurez compris, Fugatto est une avancée majeure qui va certainement transformer la façon dont nous créons et manipulons le son. J’ai vraiment hâte d’essayer !

En savoir plus sur Fugatto