Faites la connaissance de Bark, le modèle innovant de Text2Speech multilingue

par Korben -

Si comme moi, vous êtes passionnés par l’intelligence artificielle et la synthèse vocale, le projet Bark, développé par Suno, va vous plaire. Il s’agit d’une innovations aussi intéressantes que surprenantes dans le domaine du text2speech.

Alors que la plupart des modèles de synthèse vocale traditionnels fonctionnent en se basant sur des phonèmes, Bark est différent. Non seulement il génère de la parole multilingue réaliste, mais il parvient également à produire de la musique, des bruits de fond, des effets sonores simples et même des communications non verbales comme le rire, les soupirs et les pleurs.

Imaginez ce scénario : vous voulez générer un clip audio où votre personnage parle de sa passion pour la pizza et éclate soudainement de rire. Avec Bark, vous pouvez utiliser un texte d’entrée comme ‘Bonjour, je m’appelle Korben. Et, euh - et j’aime la pizza. [laughs]’ et obtenir une sortie audio qui reproduit fidèlement cette émotion.

Impressionnant non ? Même avec plusieurs langues dans un même texte, Bark parvient à gérer les nuances et les accents natifs de chaque langue. La qualité de l’anglais est la meilleure pour le moment, mais je suis sûr que les autres langues comme le français vont s’améliorer avec le temps.

Maintenant, vous vous demandez peut-être comment créer un extrait qui inclut de la musique. Eh bien, ajoutez simplement des notes de musique autour de vos paroles, comme ceci : “♪ Dans la jungle, la jungle puissante, le lion est mort ce soir ♪’” et Bark générera de l’audio avec de la musique random en arrière-plan.

Bon, mon essai était pas ouf, mais vous captez le principe :

Voici les mots clés :

[laughter] [laughs] [sighs] [music] [gasps] [clears throat] — or … pour marquer les hésitations ♪ pour du chant DES MAJUSCULES pour accentuer un mot [MAN] et [WOMAN] pour indiquer à Bark si c’est un homme ou une femme qui cause.

Le projet Bark a récemment rendu le modèle open-source sous licence MIT, permettant aux chercheurs et aux entreprises d’accéder et d’utiliser leur modèle pour leurs projets.

Pour commencer à utiliser Bark, il est facile de l’installer à l’aide de pip ou en clonant le dépôt GitHub.

pip install git+https://github.com/suno-ai/bark.git

Une fois installé, il suffit de l’importer dans votre script Python, de charger les modèles et de générer l’audio à partir du texte. Vous pouvez même écouter le résultat directement dans Jupyter Notebook grâce à la fonction Audio().

Voici un exemple d’intégration :

from bark import SAMPLE_RATE, generate_audio, preload_models from scipy.io.wavfile import write as write_wav from IPython.display import Audio # download and load all models preload_models() # generate audio from text text_prompt = """ Hello, my name is Korben. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe. """ audio_array = generate_audio(text_prompt) # save audio to disk write_wav("bark_generation.wav", SAMPLE_RATE, audio_array) # play text in notebook Audio(audio_array, rate=SAMPLE_RATE)

Vous pouvez également l’utiliser directement depuis la ligne de commande comme ceci :

python -m bark --text "Hello, my name is Korben." --output_filename "example.wav"

Pour les développeurs intéressés à explorer davantage de préréglages de voix, Bark supporte plus de 100 pré-réglages de haut-parleurs dans les langues prises en charge. Vous pourrez trouver une bibliothèque des préréglages de voix ici.

Des démos sont également accessibles ici sur Huggingface ou encore là chez Replicate.

Bark est vraiment une innovation passionnante dans le domaine du text2speech. C’est comme un couteau suisse pour les développeurs et les chercheurs qui travaillent sur des projets de synthèse vocale, de création de contenu, de musique ou même d’IA.

Si ça vous intéresse, rendez-vous sur leur dépôt GitHub et plongez-vous dans le monde fascinant du text2speech avancé.

À découvrir ici