Text-to-Speech
Convert text to natural-sounding speech
Modèles synthèse vocale pour applis vocales, livres audio et SVI
Les modèles de synthèse vocale (TTS) transforment du texte écrit en audio parlé d'apparence naturelle. La catégorie couvre tout, de la voix off plate de SVI à la narration expressive de livres audio en passant par les agents conversationnels temps réel qui tiennent un appel téléphonique. On y a recours quand on veut donner une voix à un logiciel — pour l'accessibilité, la production de contenu à grande échelle ou l'IA conversationnelle.
27 models available
ElevenLabs Multilingual V2
ElevenLabs' most natural-sounding TTS model. Supports 29 languages with emotional range.
AudioCraft
Meta's AudioCraft framework wrapping MusicGen, AudioGen and EnCodec. Unified text-to-audio research toolkit for music and sound effects.
AudioLDM 2
Latent-diffusion model for general-purpose text-to-audio. Generates speech, music, and sound effects with a unified prior.
Cartesia Sonic
Cartesia's ultra-low-latency TTS (~90ms TTFB). State-space model with voice cloning support.
Edge TTS
Microsoft Edge neural voices accessed via the open-source edge-tts wrapper. 400+ voices across 100+ locales, suitable for batch generation.
ElevenLabs v3 (alpha)
ElevenLabs' v3 alpha TTS. Most expressive voice model with audio tags and laughter, higher latency.
F5-TTS
Open-source flow-matching TTS with strong zero-shot voice cloning. Code MIT, weights CC-BY-NC.
Kokoro TTS 82M
Open-weights 82M-parameter TTS. Punches above its size class on naturalness benchmarks at a fraction of the inference cost of larger models.
MAGNeT MusicGen
Meta MAGNeT non-autoregressive music generator. Up to 7x faster than MusicGen with comparable quality via masked generative transformers.
MusicGen Large
Meta's 3.3B-parameter MusicGen Large. Text-conditioned music generation with single-stage autoregressive transformer, supports melody conditioning.
MusicGen Medium
Meta MusicGen Medium (1.5B params). Strong quality-to-speed tradeoff for text-to-music with optional melody guidance.
MusicGen Small
Meta MusicGen Small (300M params). Fast text-to-music generation suitable for prototyping and low-latency demos.
OpenAI TTS-1
OpenAI's text-to-speech model. Six built-in voices with natural intonation.
OpenAI TTS-1 HD
OpenAI's high-definition TTS model. Better quality for production use cases.
OpenVoice v1
MyShell OpenVoice v1. Cross-lingual voice cloning with flexible style control: emotion, accent, rhythm, pauses, and intonation.
OpenVoice v2
MyShell OpenVoice v2. Multilingual zero-shot voice cloning with accurate tone-color reproduction and style/emotion control.
Parler-TTS
Hugging Face Parler-TTS Mini. Lightweight TTS conditioned on a natural-language style description for fine-grained control over voice characteristics.
Parler-TTS Large
Parler-TTS Large v1. 2.2B parameters, natural-language style prompting and improved prosody over the Mini variant.
PlayHT 2.0
PlayHT's 2.0 generative voice model. Multi-lingual expressive speech synthesis with sub-second latency and high-fidelity voice cloning.
Riffusion
Stable-Diffusion-based real-time music generator. Operates on spectrogram images then resynthesizes audio, enables seamless transitions and looping.
RVC Voice Conversion
Retrieval-based Voice Conversion. Converts a source recording into a target speaker's voice, preserving pitch, prosody and rhythm.
Spark TTS
Spark efficient TTS with disentangled control over speaker, content and style. Strong cross-lingual zero-shot performance.
Stable Audio 2
Stability AI's Stable Audio 2.0. Text-to-music up to 3 minutes of full-length, structured tracks at 44.1 kHz.
StyleTTS 2
Style-based TTS using diffusion and adversarial training. Human-level naturalness in zero-shot voice synthesis from a 3-5s reference clip.
Suno Bark
Suno's text-prompted generative audio model. Speech, music, ambient sound and effects with non-verbal cues like laughter or sighs.
Tortoise TTS
Multi-voice expressive TTS. Slow but high-quality with strong prosody and natural intonation. Trained for long-form narration use cases.
XTTS v2
Coqui's XTTS v2 multilingual TTS with voice cloning from 6 seconds of reference audio. Supports 17 languages and emotion transfer.
Top text-to-speech picks
Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.
ElevenLabs' most natural-sounding TTS model. Supports 29 languages with emotional range.
Learn moreCartesia's ultra-low-latency TTS (~90ms TTFB). State-space model with voice cloning support.
Learn moreElevenLabs' most natural-sounding TTS model. Supports 29 languages with emotional range.
Learn moreOpenAI's text-to-speech model. Six built-in voices with natural intonation.
Learn moreLa tarification est presque toujours au caractère ou au mille caractères. Les voix neuronales phares (ElevenLabs V3, Cartesia Sonic, OpenAI TTS-HD) coûtent environ 0,15 à 0,30 € par mille caractères ; les tiers économiques tournent sous 0,02 € par mille. Un chapitre court de livre audio typique (3 000 mots, environ 18 000 caractères) coûte 0,30 à 5,00 € selon le tiers choisi. Certains fournisseurs facturent aussi le clonage de voix — un frais unique pour configurer une voix personnalisée plus le tarif standard au caractère au moment de la synthèse.
Le triangle de compromis est naturel, latence, coût. Les voix phares sont quasi indiscernables d'une narration humaine mais ont typiquement une latence du premier octet de 200 à 600 ms, ce qui est acceptable en synthèse par lots mais paraît lent en chat temps réel. Le TTS streaming (Cartesia, OpenAI Realtime, ElevenLabs Turbo) maintient la latence du premier octet sous 100 ms en émettant l'audio dès le décodage du premier phonème. Les tiers économiques tournent à la vitesse du phare mais avec des artefacts robotiques audibles sur les longues phrases.
Attention au contrôle prosodique : même les meilleurs modèles accentuent occasionnellement mal un nom propre, prononcent mal un acronyme ou perdent l'intention émotionnelle sur les longues phrases. Utilisez les tags SSML (quand pris en charge) ou découpez les longs passages en chunks plus courts avec des frontières de phrase explicites. Pour le contenu multilingue, vérifiez la prononciation sur chaque paire de langues avant de livrer — certaines voix parlent un anglais parfait et un allemand avec un fort accent.
Les top picks ci-dessus couvrent la voix la plus naturelle, le cheval de trait le moins cher, le modèle au plus long input et l'option streaming la plus rapide.
Popular use cases
Common patterns built with text-to-speech on Railwail.
Related comparisons
Side-by-side reviews of the most-compared models in this category.
Frequently asked questions
Start Building with AI
Access all models through a single API. Get free credits when you sign up — no credit card required.