Speech-to-Text

Transcribe and understand audio with AI

Speech-to-text-modellen voor transcriptie, meetings en zoeken

Speech-to-text (STT) modellen zetten gesproken audio om in geschreven tekst. De categorie dekt van podcasttranscripts tot realtime captioning-pipelines en spraakopdracht-interfaces in mobiele apps. Je grijpt naar STT wanneer je binnen audio moet zoeken, dictatie wilt bouwen, meetings wilt samenvatten of captions wilt genereren voor toegankelijkheid.

Top speech-to-text picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Beste algemeen
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Goedkoopst
ElevenLabs Scribe v1

ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.

Learn more
Langste audio
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Snelste
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more

De prijs is bijna altijd per minuut audio. Flagship-modellen (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) kosten ongeveer €0,005-€0,015 per minuut. Een transcript van een podcast van een uur kost €0,30-€0,90 afhankelijk van de tier. Sommige providers rekenen extra voor premiumfuncties zoals sprekerdiarisatie, timestamps op woordniveau, samenvattingen of vertaling, dus reken het door met de functies die je daadwerkelijk inschakelt.

De afweging is nauwkeurigheid, latency en functieomvang. Whisper Large V3 leidt op ruw word-error-rate in benchmarkevaluaties en is open-weights, dus self-hostbaar. Deepgram Nova-3 en AssemblyAI Universal leiden op streaming-latency (sub-300ms eerste token) en kwaliteit van diarisatie. ElevenLabs Scribe leidt op meertalige dekking en code-switching (wanneer sprekers midden in een zin van taal wisselen). Voor batchtranscriptie wint Whisper meestal op de combinatie kosten-en-nauwkeurigheid. Voor realtime gesprekstranscriptie wint een streaming-first provider.

Pas op met ruisaudio: de word-error-rate verdubbelt ruwweg onder 20 dB SNR op elk model, en overlappende sprekers degraderen diarisatie zelfs bij flagships. Pre-process met een ruisonderdrukkingsmodel (RNNoise, Krisp) als je bron onvoorspelbaar is. Pas ook op met eigennamen: elk model transcribeert nog altijd ongebruikelijke namen, technische termen en merknamen verkeerd. De meeste providers accepteren een `keywords`-hintlijst om de decoder bij te sturen — gebruik die.

De topkeuzes hierboven dekken het nauwkeurigste model, het goedkoopste werkpaard, de optie die de langste audio ondersteunt en de snelste streaming-optie.

Related comparisons

Side-by-side reviews of the most-compared models in this category.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.