Le son des images #IA

Le 28 mai 2024 par Korben ✨ -

Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ».

Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le processus de génération, les deux modèles “débruitent” des latents partagés de manière simultanée, guidés par deux textes décrivant l’image et le son désirés.

Le résultat est bluffant ! Ça donne des spectrogrammes qui, vus comme des images, ressemblent à un château avec des tours, et écoutés comme des sons, font entendre des cloches. Ou des tigres dont les rayures cachent les motifs sonores de leurs rugissements.

Pour évaluer leur bidouille, les chercheurs ont utilisé des métriques quantitatives comme CLIP et CLAP, ainsi que des études de perception humaine. Leur méthode dépasse les approches alternatives et génère des échantillons qui collent finement aux prompts textuels dans les deux modalités. Ils montrent aussi que coloriser les spectrogrammes donne des images plus agréables à l’œil, tout en préservant l’audio.

Cette prouesse révèle qu’il existe une intersection entre la distribution des images et celle des spectrogrammes audio et en dépit de leurs différences, ils partagent des caractéristiques bas niveau comme les contours, les courbes et les coins. Cela permet de composer de façon inattendue des éléments visuels ET acoustiques, comme une ligne qui marque à la fois l’attaque d’un son de cloche et le contour d’un clocher.

Les auteurs y voient une avancée pour la génération multimodale par composition et une nouvelle forme d’expression artistique audio-visuelle. Une sorte de stéganographie qui cacherait des images dans une piste son, dévoilées uniquement lorsqu’elles sont transformées en spectrogramme.

Pour recréer cette méthode chez vous, il “suffit” d’aller sur le Github du projet et de suivre les instructions techniques.

Source

Créateurs de contenus, voici l'hébergement qu'il vous faut pour cartonner !

Contenu partenaire

Blogueurs, influenceurs, créateurs de contenus... Si comme moi vous vivez de votre créativité en ligne, vous méritez ce qu'il y a de mieux pour votre activité !

Laissez-moi vous présenter l'Offre Unique de o2switch : LA solution idéale pour propulser votre site ou blog. Avec son espace disque illimité et ses bases de données sans restriction, publiez autant de contenus que vous voulez sans vous soucier des limites !

Gérez votre WordPress comme un pro grâce aux outils exclusifs et à l'interface cPanel ultra simple. Soyez serein avec un nom de domaine offert, des sauvegardes quotidiennes de vos précieux contenus et un hébergement français sécurisé. Et s'il y a un souci, le support technique est là pour vous 24/7 !

Vous voulez le meilleur ? C'est seulement 4,2 € HT/mois. Oui oui, c'est tout ! Alors n'attendez plus et offrez à votre site le tremplin qu'il mérite. Votre communauté n'attend que ça !

Découvrez vite L'Offre Unique