MMAudio - Un outil pour synchroniser l'audio et la vidéo
Des chercheurs de l’Université de l’Illinois à Urbana-Champaign et de Sony AI viennent de dévoiler une prouesse technique particulièrement impressionnante dans le domaine de l’IA générative. En effet, leur nouveau projet baptisé MMAudio permet de générer automatiquement des bandes sonores parfaitement synchronisées avec n’importe quelle vidéo.
Contrairement à la plupart des solutions existantes, qui se contentent souvent de superposer maladroitement des effets sonores sur les vidéos, MMAudio innove en adoptant une approche multimodale combinant texte et vidéo. Le système analyse en parallèle le contenu visuel et les descriptions textuelles pour comprendre précisément ce qui se passe à l’écran et générer des sons réalistes et cohérents.
Voici une démo qui montre des vidéos sans son sur lesquelles MMAudio a ensuite été appliqué :
Le modèle a été entraîné sur plusieurs grands jeux de données, dont AudioSet, Freesound, VGGSound et AudioCaps. Grâce à cette approche d’entraînement multimodale, MMAudio offre une excellente compréhension des relations entre l’image et le son, et produit des résultats bien supérieurs aux solutions antérieures.
Par exemple, si vous lui montrez une vidéo de vagues s’échouant sur une plage, assortie de la description « bruit des vagues sur une plage déserte », MMAudio générera un son de ressac réaliste, soigneusement synchronisé aux mouvements de l’eau. C’est pas mal, non ?
Malgré sa sophistication, l’installation de MMAudio reste simple. Voici comment procéder :
Clonez le dépôt :
git clone https://github.com/hkchengrex/MMAudio.git
Installez les dépendances :
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade
Puis installez MMAudio :
cd MMAudio pip install -e .
Et voilà, vous êtes prêt à générer vos premières bandes son !
La grande force de MMAudio réside notamment dans sa rapidité puisque le système est capable de générer 8 secondes d’audio en seulement 1,23 seconde sur un GPU moderne.
Plusieurs variantes sont proposées pour s’adapter à différents usages :
- Version 16 kHz pour des sons « standards »
- Version 44,1 kHz pour une qualité équivalente à celle d’un CD
- Différentes tailles de modèles (S, M, L) selon la puissance et le niveau de détail souhaités
Les perspectives d’utilisation de MMAudio s’étendent sur de nombreux domaines. Par exemple dans le secteur de la production vidéo, le système permettrait d’enrichir automatiquement les contenus avec des ambiances sonores adaptées. Le domaine du jeu vidéo pourrait aussi en bénéficier en profitant d’une capacité à générer des sons réactifs qui s’adaptent aux actions des joueurs. La réalité virtuelle y trouvera probablement son compte aussi pour avoir des environnements audio véritablement immersifs.
Cependant, comme tout système d’intelligence artificielle, MMAudio présente certaines limitations. La génération de voix humaines demeure un défi majeur et nécessite encore des améliorations significatives. Les sons musicaux particulièrement complexes peuvent présenter une qualité variable, et le système peine encore à reproduire certains concepts sonores très spécifiques. Selon l’équipe de développement, ces limitations pourront être surmontées grâce à l’enrichissement des données d’entraînement.
Sur le plan éthique, les créateurs de MMAudio ont adopté une approche responsable. Ils ont choisi de rendre le code source ouvert et transparent, accompagné d’une documentation exhaustive détaillant les capacités et limites du système. Des tests approfondis ont été menés avant la publication, et une attention particulière a été portée au respect des licences associées aux jeux de données utilisés.
Maintenant si vous avez envie de sonoriser vos vidéos, une démo en ligne est disponible ici.
Merci à Lorenper pour avoir partagé cette découverte !