Speech-to-Text
Transcribe and understand audio with AI
Speech-to-text-modellen voor transcriptie, meetings en zoeken
Speech-to-text (STT) modellen zetten gesproken audio om in geschreven tekst. De categorie dekt van podcasttranscripts tot realtime captioning-pipelines en spraakopdracht-interfaces in mobiele apps. Je grijpt naar STT wanneer je binnen audio moet zoeken, dictatie wilt bouwen, meetings wilt samenvatten of captions wilt genereren voor toegankelijkheid.
5 models available
Whisper Large V3
OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Whisper Large v3 Turbo
OpenAI's distilled Whisper Large v3. ~216x realtime, 99+ languages, MIT-licensed weights.
Deepgram Nova-3
Deepgram's flagship STT. First to offer realtime multilingual transcription with self-serve customization.
ElevenLabs Scribe v1
ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.
SeamlessM4T v2 Large (Speech)
Meta SeamlessM4T v2 Large speech mode. Speech-to-speech, speech-to-text, and text-to-speech translation across 100+ languages in a single unified model.
Top speech-to-text picks
Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.
OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.
Learn moreOpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreOpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreDe prijs is bijna altijd per minuut audio. Flagship-modellen (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) kosten ongeveer €0,005-€0,015 per minuut. Een transcript van een podcast van een uur kost €0,30-€0,90 afhankelijk van de tier. Sommige providers rekenen extra voor premiumfuncties zoals sprekerdiarisatie, timestamps op woordniveau, samenvattingen of vertaling, dus reken het door met de functies die je daadwerkelijk inschakelt.
De afweging is nauwkeurigheid, latency en functieomvang. Whisper Large V3 leidt op ruw word-error-rate in benchmarkevaluaties en is open-weights, dus self-hostbaar. Deepgram Nova-3 en AssemblyAI Universal leiden op streaming-latency (sub-300ms eerste token) en kwaliteit van diarisatie. ElevenLabs Scribe leidt op meertalige dekking en code-switching (wanneer sprekers midden in een zin van taal wisselen). Voor batchtranscriptie wint Whisper meestal op de combinatie kosten-en-nauwkeurigheid. Voor realtime gesprekstranscriptie wint een streaming-first provider.
Pas op met ruisaudio: de word-error-rate verdubbelt ruwweg onder 20 dB SNR op elk model, en overlappende sprekers degraderen diarisatie zelfs bij flagships. Pre-process met een ruisonderdrukkingsmodel (RNNoise, Krisp) als je bron onvoorspelbaar is. Pas ook op met eigennamen: elk model transcribeert nog altijd ongebruikelijke namen, technische termen en merknamen verkeerd. De meeste providers accepteren een `keywords`-hintlijst om de decoder bij te sturen — gebruik die.
De topkeuzes hierboven dekken het nauwkeurigste model, het goedkoopste werkpaard, de optie die de langste audio ondersteunt en de snelste streaming-optie.
Popular use cases
Common patterns built with speech-to-text on Railwail.
Related comparisons
Side-by-side reviews of the most-compared models in this category.
Frequently asked questions
Start Building with AI
Access all models through a single API. Get free credits when you sign up — no credit card required.