Un synthétiseur vocal avec un choix de voix très impressionnant
La synthèse vocale, ça fait un bail que ça existe, mais avec le deep learning, ça prend une tout autre dimension. À l’origine, le projet devait être un chatbot audio interactif utilisant WebRTC, mais son créateur s’amusait beaucoup plus avec la partie synthèse vocale de son projet.
Il a donc décidé de créer le site Uberduck qui est capable de lire n’importe quel texte avec des voix “connues” synthétisées à partir de modèles Tacotron 2 qui génère une voix similaire à celle d’un être humain à partir d’un texte en utilisant des réseaux neuronaux formés uniquement à partir d’exemples d’audios et des transcriptions de texte correspondantes.
Ainsi, si vous souhaitez créer vos propres modèles, vous pouvez évidemment les soumettre à Uberduck. Après plusieurs tests, ce que je peux vous dire c’est que c’est super bluffant même si ça peut se mettre à déconner en fonction des modèles et surtout de la longueur du texte. Essayez de ne pas faire trop long.
Quoiqu’il en soit, les voix sont hyper nombreuses. De rappeurs comme Eminem ou 2Pac en passant par Mickey Mouse, des dresseurs de Pokemon ou encore des personnages de jeux vidéo… bref, énormément de voix à tester pour votre plus grand plaisir et pourquoi pas vous faire de superbes messages pour votre répondeur téléphonique.
C’est par ici que ça se passe.