Question 1

Welches STT-Modell ist am genauesten?

Accepted Answer

Whisper Large V3 führt bei der Wortfehlerrate in unabhängigen Benchmarks über die meisten Sprachen. Deepgram Nova-3 führt bei Englisch mit niedriger Streaming-Latenz. AssemblyAI Universal führt bei Call-Center- und Meeting-Audio. Lass eine Probe deines eigenen Audios auf der Modell-Detailseite laufen, bevor du dich festlegst.

Question 2

Wird Echtzeit-Streaming unterstützt?

Accepted Answer

Ja — Deepgram, AssemblyAI, ElevenLabs Scribe und OpenAI Realtime streamen Transkripte alle mit First-Token-Latenz unter 300 ms. Batch-only-Anbieter (einige Whisper-Deployments) hängen hier hinterher. Für Untertitelung und Voice-Agenten wähle immer ein streamingfähiges Modell.

Question 3

Wie wird STT abgerechnet?

Accepted Answer

Pro Minute Audio. Flagship-Raten liegen bei 0,005–0,015 € pro Minute. Premium-Features (Diarization, Zeitstempel, Übersetzung) tragen manchmal Aufschläge. Ein typisches einstündiges Interview kostet 0,30–0,90 €.

Question 4

Welche Sprachen werden unterstützt?

Accepted Answer

Whisper Large V3 unterstützt 99 Sprachen. ElevenLabs Scribe deckt 100+ mit starkem Code-Switching ab. Deepgram Nova-3 deckt aktuell 40+ ab, am stärksten Englisch. Lass für ressourcenarme Sprachen zuerst eine Probe laufen — die Genauigkeit schwankt erheblich.

Question 5

Kann es verschiedene Sprecher erkennen (Diarization)?

Accepted Answer

Ja, auf den meisten Flagships — Sprecher-Diarization labelt jedes Segment mit 'Sprecher 1', 'Sprecher 2' usw. Die Genauigkeit hängt von der Audioqualität und davon ab, wie oft sich Sprecher überlappen. Manche Anbieter akzeptieren auch Enrollment-Audio, um bestimmte benannte Sprecher zu identifizieren.

Question 6

Werden Zeitstempel geliefert?

Accepted Answer

Ja — Zeitstempel auf Wort- oder Segment-Ebene sind auf Flagship-Stufen Standard. Nimm Wort-Ebene für Video-Untertitelung und Karaoke-artiges Highlighting; Segment-Ebene reicht für Transkript-Suche und Meeting-Zusammenfassungen.

Question 7

Welche Audioformate werden akzeptiert?

Accepted Answer

MP3, WAV, M4A, FLAC, OGG und die meisten browser-nativen Streaming-Formate. Sampling-Raten von 8 kHz (Telefonie) bis 48 kHz (Studio). Maximale Dateigröße variiert — typisch 25 MB auf managed APIs und unbegrenzt für selbst gehostetes Whisper.

Question 8

Kann es beim Transkribieren übersetzen?

Accepted Answer

Ja — Whisper hat einen eingebauten Translate-Modus, der englische Transkripte aus jeder seiner 99 Quellsprachen produziert. ElevenLabs Scribe und einige andere Anbieter unterstützen Übersetzung in eine breitere Zielsprachen-Auswahl. Die Übersetzungsgenauigkeit ist niedriger als bei dedizierten Übersetzungsmodellen — gut für Suche, nicht für Publikation.

Speech-to-Text

Speech-to-Text-Modelle für Transkription, Meetings und Suche

Incredibly Fast Whisper

Whisper

Whisper Large V3

Whisper Large v3 Turbo

Deepgram Nova-3

SeamlessM4T

SeamlessM4T v2 Large (Speech)

Whisper Diarization

WhisperX

Top speech-to-text picks

Popular use cases

Related comparisons

Whisper Large V3 vs Deepgram Nova-3

Frequently asked questions

Start Building with AI