QWEN 3 TTS : Le texte to speech et clonage vocal a porté de main
https://github.com/QwenLM/Qwen3-TTS
📌 Qwen 3 TTS est une solution qui met sérieusement en compétition la technologie existante d’ElevenLabs. Elle permet de cloner votre voix et ensuite de le proposer en text to speech. Personnellement, j’ai toujours rêvé d’une telle fonctionnalité pour pouvoir doubler des livres audio au format EPUB.
L’année dernière, j’avais déjà mentionné comment quelqu’un avait cloné ma voix pour une série de tutoriels vidéo, et c’était assez impressionnant. Ce clonage utilisait déjà ElevenLabs, mais aujourd’hui, la technologie est encore plus avancée. Cloner une voix est devenu tellement simple qu’on pourrait utiliser une vidéo, extraire l’audio, et le télécharger sur une plateforme comme ElevenLabs pour reproduire parfaitement la voix d’une personne. Bien que ces services cloud aient des mesures de sécurité pour éviter cela, elles restent imparfaites.
Cependant, une nouvelle technologie open-source émerge désormais : Qwen 3 TTS. Développée par Alibaba Cloud en Chine, cette solution permet de créer des modèles TTS (text-to-speech) pouvant être exécutés sur quasiment n’importe quel système. Voici quelques points clés :
- 🖥️ Accessibilité : Quen 3 TTS peut être exécuté sur des systèmes comme un Raspberry Pi avec GPU externe, un Mac, voire un téléphone.
- ⚙️ Facilité d’utilisation : Il suffit d’enregistrer un extrait vocal, d’ajouter une transcription et, après quelques minutes, on obtient une reproduction presque parfaite de la voix d’une personne.
- 📡 Hébergement simplifié : Le service est déjà disponible via HuggingFace, mais il est aussi très possible de l’héberger soi-même, rendant la technologie encore plus accessible.
Une fois l’enregistrement de quelqu’un récupéré, il suffit d’ajouter le texte désiré, et en un temps record, il est possible de faire dire à n’importe qui ce que l’on veut. Ce modèle open-source peut même être exécuté en mode offline, sans avoir besoin d’une connexion constante aux serveurs. Cela le rend encore plus puissant et démocratisé.
Cela fait apparaître une question cruciale : jusqu’à quel point peut-on se fier à ce genre de technologie, quand il devient si facile de falsifier des voix ? Par exemple, Qwen 3 TTS ne génère pas de performances parfaites en termes de tonalité, mais pour des phrases courtes, le résultat est suffisamment convaincant pour induire en erreur.
Voici quelques conséquences inquiétantes :
- 🎭 Voix clonée facilement : En utilisant des outils comme celui-ci, il est désormais possible de cloner une voix sans effort, même pour des phrases complètes. Cela peut induire en erreur ceux qui ne connaissent pas la personne à qui appartient la voix.
- 🚨 Problème de sécurité : En tant que créateur de contenu, cela devient une source d’inquiétude, car la voix est une part essentielle de l’identité en ligne, souvent utilisée pour générer des revenus. Cloner une voix sans autorisation peut entraîner de lourdes conséquences sur la réputation et la protection des droits d’auteur.
La situation est d’autant plus inquiétante que la technologie devient de plus en plus facile à utiliser, et que nous risquons de voir proliférer du contenu généré par IA, aussi réaliste qu’il soit, mais potentiellement totalement faux. Cela ouvre la voie à des abus de clônage vocal, rendant difficile la distinction entre contenu authentique et falsifié.
Il est essentiel de prendre conscience de cette évolution et de se préparer à un monde où tout peut être cloné, de manière plus accessible que jamais.
Source : https://qwen.ai/blog?id=qwen3tts-0115
En savoir plus sur Clement MONDARY
Subscribe to get the latest posts sent to your email.
