Introduction :
Au cours des dernières années, les systèmes Texte-en-Audio (TTA) ont connu une évolution significative. Les modèles peuvent maintenant lire un texte à voix haute et donner à cette parole une personnalité, une émotion et une identité, grâce à l’IA générative (GenAI). Coqui et Kokoro sont deux des modèles open source les plus prometteurs qui mènent ce changement. Les deux offrent une synthèse émotionnelle robuste, le clonage de voix et des capacités d'ajustement fin. Cet article compare leurs performances, examine leurs avantages et explore comment ils facilitent la création d’un audio expressif.
Les voix robotiques monotones ne sont plus la seule option disponible pour les systèmes TTS modernes. Ces modèles peuvent désormais produire un audio semblable à une voix humaine qui capte des indices subtils comme des pauses, des soupirs, des variations de ton, des rires et même des expressions de bonheur ou de frustration, grâce à GenAI.
GenAI a rendu possibles de nouvelles possibilités pour des livres audio et balados narrés clairement.
- Voix des personnages dans l’animation et les jeux vidéo
- Maintien de l’identité vocale lors du doublage en plusieurs langues
- Avertissements émotionnels et lecteurs d’écran qui sonnent naturels
- Assistants vocaux et robots de service à la clientèle à voix humaine
Comparaison des modèles :
Coqui a créé un modèle efficace appelé XTTS (Texte-en-Parole multilingue), reconnu pour son adaptabilité et son expressivité. Il convient autant à la création de voix personnalisées poussées qu’au prototypage rapide, car il supporte à la fois l’ajustement complet (fine-tuning) et le clonage vocal avec peu d’exemples (« few-shot cloning »). Des résultats très réalistes peuvent être obtenus en ajustant XTTS avec seulement 100 à 200 échantillons riches en émotions. Il saisit avec une grande précision les nuances émotives, les changements de ton et les caractéristiques vocales.
Kokoro est un modèle open-source plus récent et léger, conçu pour la synthèse de la parole émotionnelle. L’adaptation vocale nécessite un ajustement en profondeur puisqu’il ne prend pas en charge le clonage vocal avec peu d’exemples, contrairement à XTTS. Son architecture est toutefois idéale pour produire une parole chargée d’émotion, particulièrement dans des contextes de dialogue et de narration.
Kokoro ne supporte pour l’instant que l’inférence avec des modèles .pth, ce qui signifie aucun ajustement fin, clonage de locuteurs ou synthèse multidisciplinaire. Il n’a pas encore de support CLI ou API, alors les utilisateurs doivent charger les modèles manuellement à l’aide de scripts Python! La documentation est rare et la communauté commence à peine à se former, ce qui fait que la plupart des utilisateurs ont du mal à le personnaliser ou à l’entraîner pour de la narration de type livre audio.
Coqui XTTSV2 est très performant pour la synthèse vocale expressive et multilingue. Il supporte la narration style livre audio, les monologues émotionnels et les dialogues à forte prosodie en utilisant une voix fixe ou clonée. Le modèle offre le clonage de voix avec peu d’exemples et l’ajustement fin avec de petits jeux de données. Il facilite aussi la synthèse multilingue et l’apprentissage des émotions à partir de données, avec une documentation abondante et un soutien communautaire actif.
XTTSv2 est une mise à niveau du modèle XTTS original, offrant une qualité grandement améliorée tant au niveau de la performance que de l’audio. Il fournit une inférence à plus faible latence et une voix plus naturelle, semblable à celle d’un humain, le rendant plus adapté aux applications en temps réel. Le modèle v2 produit un son plus propre avec moins d’artéfacts ou de défauts audio, et une reproduction de voix clonée plus précise et réaliste. XTTSv2 prend aussi en charge un plus grand nombre de langues et propose un ajustement fin plus robuste, particulièrement pour les petits ensembles de données.
Kokoro :
Le dépôt pour Kokoro est présent sur hugging face à l’adresse https://huggingface.co/hexgrad/Kokoro-82M, clonez-le pour l’utiliser dans un notebook Colab.
Enveloppez soit le modèle avec KModel('/content/Kokoro-82M/kokoro-v1_0.pth') ou chargez directement le modèle à l’emplacement indiqué. L’embedding vocal du modèle provient de langues et voix sélectionnées comme l’anglais, le chinois, le japonais et quelques autres. Générez l’audio en utilisant votre texte personnalisé et la voix/langue choisie.
model_path = "kokoro-v0_19.pth"
model = build_model(model_path, device)
voice = torch.load("voices/af_bella.pt", weights_only=True).to(device)
text_input = "Kokoro est un modèle TTS open-weight avec 82 millions de paramètres. Malgré son architecture légère, il offre une qualité comparable à celle de modèles plus volumineux tout en étant nettement plus rapide et plus économique. Avec des poids sous licence Apache, Kokoro peut être déployé partout, des environnements de production aux projets personnels "
audio, sr = generate(model, text_input, voice, lang='a')
ipd.display(ipd.Audio(audio.cpu().numpy(), rate=sr))
Le texte est choisi par défaut du site web de Kokoro. La sortie générée est au format wav.

Xxts :
Coqui va au-delà de la simple conversion de texte en audio et clone la voix selon l’entrée du locuteur.
Depuis TTS importez et chargez le modèle nécessaire xtts_v2
from TTS.api import TTS
tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
speaker_wavs = [os.path.join("/content/clean_wavs", f) for f in os.listdir("/content/clean_wavs") if f.endswith(".wav")]
tts.tts_to_file(
text="Coqui TTS avec la technologie XTTS offre des capacités remarquables de clonage vocal, permettant aux utilisateurs de reproduire des voix à partir d’échantillons audio de seulement 3 secondes. Cette technologie ouvre un monde de possibilités pour la synthèse vocale personnalisée.",
speaker_wav=speaker_wavs,
language="en",
file_path="/content/cloned_output.wav",
)
Le texte est choisi par défaut du site web de Coqui. L’entrée du locuteur pour la demande en « few shots » est la mienne, homme indien. La sortie générée est au format wav.
Cela démontre la puissance du modèle Coqui Xtts dans la conversion de texte en audio et le clonage via des invites à quelques exemples seulement.

