Aller au contenu
Korben, roi d’internet, logo bébé avec des lunettes en mode thug life

Voice Engine – Les voix synthétiques bluffantes d’OpenAI

Vous avez vu Voice Engine d’OpenAI ? C’est un modèle d’IA qui est capable de générer des voix synthétiques ultra-réalistes à partir d’un simple échantillon audio de 15 secondes. Seulement 15 secondes, oui !

Concrètement, ça veut dire qu’avec cette IA, on peut créer des voix qui ressemblent à s’y méprendre à celles de vraies personnes. Genre on donne un petit extrait de notre voix, et hop, l’IA peut générer un discours entier qui sonne exactement comme nous. C’est à la fois fascinant et un peu flippant, vous trouvez pas ?

OpenAI sont à la pointe de la recherche dans le domaine et ils nous pondent régulièrement des trucs de malade comme Sora. Concernant Voice Engine, ils ont développé la techno fin 2022 et l’ont intégré dans leur API de synthèse vocale ainsi que dans les fonctionnalités vocales de ChatGPT.

Voici les 15 secondes de vraie voix :

Et voici l’audio qui a été généré à partir de ça :

Mais attention, comme un grand pouvoir implique de grandes responsabilités (coucou Peter !), OpenAI joue la carte de la prudence. Ils sont bien conscients que cette technologie pourrait être utilisée à des fins pas très catholiques, genre pour créer des deepfakes audio et induire les gens en erreur. Du coup, ils la déploient pour l’instant à petite échelle, juste auprès de quelques partenaires de confiance.

Et ces partenaires, ils en font quoi de Voice Engine ?

Eh bien figurez-vous qu’ils développent des applications plutôt cools ! Par exemple, Age of Learning l’utilise pour générer des contenus audio éducatifs avec des voix naturelles et expressives. Ou encore HeyGen qui s’en sert pour traduire des vidéos dans différentes langues en conservant la voix du locuteur d’origine. D’ailleurs c’est ce que j’utilise pour ma chaine Youtube en anglais et je peux vous dire que ça coûte une couille. Ça peut aussi aider les personnes non-verbales à communiquer avec une voix unique grâce à Livox. Et même redonner la parole à des patients ayant perdu l’usage de la voix, comme le fait l’institut Norman Prince Neurosciences de Lifespan.

Rassurez-vous, OpenAI a mis en place des garde-fous, comme l’interdiction d’utiliser Voice Engine pour imiter quelqu’un sans son consentement, l’obligation d’obtenir l’accord explicite du locuteur original, ou encore le watermarking des contenus générés pour pouvoir en tracer l’origine. Ils suggèrent également d’abandonner progressivement l’authentification vocale comme mesure de sécurité, mais également d’explorer des réglementations qui permettraient de protéger l’usage des voix dans l’IA, de sensibiliser le public aux deepfakes et de développer des techniques pour tracer l’origine des contenus audio et visuels.

Bref, Voice Engine c’est à la fois excitant et inquiétant. Ce que je vois, c’est que ça ouvre des perspectives folles en termes d’applications, mais ça soulève aussi pas mal de questions sur l’avenir.

Je vous invite à checker l’article d’OpenAI qui détaille leur approche avec plein d’exemples.

Source


Les articles du moment