Question 1

Welches TTS-Modell klingt am menschlichsten?

Accepted Answer

ElevenLabs V3 und Cartesia Sonic führen aktuell die Blind-A/B-Tests bei Natürlichkeit an, OpenAI TTS-HD dicht dahinter. Der Abstand schrumpft bei kurzen Äußerungen — unter 30 Sekunden klingen selbst Budget-Stufen sehr nahe am Menschen. Bei Langform-Narration ziehen die Flagships davon.

Question 2

Welches ist am günstigsten?

Accepted Answer

Open-Weights-Modelle wie F5-TTS und Coqui XTTS laufen selbst gehostet unter 0,02 € pro Tausend Zeichen. Auf managed Infrastruktur erwarte 0,03–0,08 € pro Tausend für Budget-Stufen. Flagships liegen bei 0,15–0,30 € pro Tausend. Sortiere das Modell-Grid nach Input-Kosten für das aktuelle Ranking.

Question 3

Kann ich eine bestimmte Stimme klonen?

Accepted Answer

Ja — die meisten Flagship-Plattformen akzeptieren einen Referenzclip von 30 Sekunden bis 3 Minuten und produzieren daraus eine Custom-Voice. Cloning-Gebühren variieren; das einmalige Setup liegt meist bei 1–10 € pro Stimme, die Synthese läuft danach zur Standard-Per-Zeichen-Rate.

Question 4

Wird Streaming unterstützt?

Accepted Answer

Ja. Cartesia, ElevenLabs Turbo, OpenAI Realtime und einige Open-Weights-Optionen streamen Audio mit First-Byte-Latenz unter 100 ms. Für interaktive Agenten und Live-Untertitelung wähle immer eine streamingfähige Stufe.

Question 5

Welche Sprachen werden unterstützt?

Accepted Answer

Flagship-Plattformen decken 30–100 Sprachen mit nativen Stimmen ab. ElevenLabs V3 liefert in 70+, OpenAI TTS in rund 50. Die Qualität schwankt — Englisch, Spanisch, Deutsch, Französisch und Mandarin sind durchweg exzellent; ressourcenarme Sprachen können robotisch klingen oder Akzent-Artefakte tragen.

Question 6

Kann ich Emotion und Betonung steuern?

Accepted Answer

Moderne Flagships erkennen Emotion automatisch aus Interpunktion und Kontext. Für explizite Steuerung nutze SSML-Tags (wo unterstützt) für Betonung, Pausen und Tempo; manche Plattformen akzeptieren Emotion-Tags wie 'aufgeregt' oder 'ruhig' direkt im Prompt.

Question 7

Welche Audioformate werden ausgegeben?

Accepted Answer

MP3 und WAV sind universell. PCM, Opus und µ-Law sind im Telefonie-Umfeld üblich. Sampling-Raten reichen von 16 kHz (Telefonie) bis 48 kHz (Studio). Wähle das Format, das zu deinem Auslieferungs-Kanal passt.

Question 8

Ist kommerzielle Nutzung erlaubt?

Accepted Answer

Fast immer ja auf kommerziellen Stufen — TTS-Output wird wie ein bezahltes Voiceover behandelt. Geklonte Stimmen tragen strengere Bedingungen: Du musst die Quellstimme typisch besitzen oder lizenziert haben. Lies die Modellkarte für die Bedingungen pro Anbieter, bevor du in Ads oder bezahlten Content ausspielst.

Text-to-Speech

Text-to-Speech-Modelle für Voice-Apps, Hörbücher und IVR

ElevenLabs Multilingual V2

AudioLDM 2

Cartesia Sonic

Chatterbox

Edge TTS

F5-TTS

F5-TTS

Kokoro TTS 82M

MAGNeT MusicGen

MusicGen Large

OpenAI TTS-1

OpenAI TTS-1 HD

OpenVoice v2

Parler-TTS

PlayHT 2.0

Riffusion

RVC Voice Conversion

Spark TTS

Stable Audio 2

StyleTTS 2

Suno Bark

Tortoise TTS

XTTS v2

Top text-to-speech picks

Popular use cases

Related comparisons

F5-TTS vs Cartesia Sonic

Frequently asked questions

Start Building with AI