Speech-to-Text

Transcribe and understand audio with AI

Speech-to-Text-Modelle für Transkription, Meetings und Suche

Speech-to-Text (STT) verwandelt gesprochenes Audio in geschriebenen Text. Die Kategorie deckt alles ab: vom Podcast-Transkript über Echtzeit-Untertitelungs-Pipelines bis zu Voice-Command-Schnittstellen in mobilen Apps. Du greifst zu STT, wenn du in Audio suchen, Diktat bauen, Meetings zusammenfassen oder Untertitel für die Barrierefreiheit erzeugen willst.

Top speech-to-text picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Beste Wahl insgesamt
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Günstigstes
ElevenLabs Scribe v1

ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.

Learn more
Längstes Audio
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Schnellstes
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more

Die Abrechnung erfolgt fast immer pro Minute Audio. Flagship-Modelle (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) kosten rund 0,005–0,015 € pro Minute. Das Transkript eines einstündigen Podcasts kostet je nach Stufe 0,30–0,90 €. Manche Anbieter berechnen Aufschläge für Premium-Features wie Sprechertrennung (Diarization), Wort-Zeitstempel, Zusammenfassungen oder Übersetzung — rechne also mit den tatsächlich aktivierten Features.

Der Trade-off heißt Genauigkeit, Latenz und Feature-Reichtum. Whisper Large V3 führt in Benchmark-Evaluierungen bei der reinen Wortfehlerrate und ist Open-Weights, du kannst es also selbst hosten. Deepgram Nova-3 und AssemblyAI Universal führen bei Streaming-Latenz (unter 300 ms First-Token) und Diarization-Qualität. ElevenLabs Scribe führt bei mehrsprachiger Abdeckung und Code-Switching (wenn Sprecher mitten im Satz die Sprache wechseln). Für Batch-Transkription gewinnt meist Whisper bei Kosten und Genauigkeit. Für Echtzeit-Anrufs-Transkription gewinnt ein Streaming-First-Anbieter.

Achte auf verrauschtes Audio: Die Wortfehlerrate verdoppelt sich auf jedem Modell ungefähr unterhalb von 20 dB SNR, und überlappende Sprecher verschlechtern die Diarization selbst auf Flagships. Vorverarbeite mit einem Rauschunterdrückungs-Modell (RNNoise, Krisp), wenn deine Quelle unberechenbar ist. Achte auch auf Eigennamen: Jedes Modell vertranskribiert weiterhin seltene Namen, Fachbegriffe und Markennamen. Die meisten Anbieter akzeptieren eine `keywords`-Hinweisliste, um den Decoder zu biasen — nutze sie.

Die Top-Picks oben decken das genaueste Modell, das günstigste Arbeitspferd, den Long-Audio-Champion und die schnellste Streaming-Option ab.

Related comparisons

Side-by-side reviews of the most-compared models in this category.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.