Question 1

Welk STT-model is het nauwkeurigst?

Accepted Answer

Whisper Large V3 leidt op word-error-rate in onafhankelijke benchmarks over de meeste talen. Deepgram Nova-3 leidt op Engels met lage-latency streaming. AssemblyAI Universal leidt op callcenter- en meeting-audio. Draai een sample van je eigen audio op de modeldetailpagina voordat je je vastlegt.

Question 2

Wordt realtime streaming ondersteund?

Accepted Answer

Ja — Deepgram, AssemblyAI, ElevenLabs Scribe en OpenAI Realtime streamen allemaal transcripts met een latency tot eerste token onder 300ms. Batch-only providers (sommige Whisper-deployments) lopen hier achter. Voor captioning en voice agents kies je altijd een streaming-capabele model.

Question 3

Hoe wordt STT gefactureerd?

Accepted Answer

Per minuut audio. Flagshiptarieven liggen op €0,005-€0,015 per minuut. Premiumfuncties (diarisatie, timestamps, vertaling) brengen soms toeslagen mee. Een typisch interview van een uur kost €0,30-€0,90.

Question 4

Welke talen worden ondersteund?

Accepted Answer

Whisper Large V3 ondersteunt 99 talen. ElevenLabs Scribe dekt 100+ met sterke code-switching. Deepgram Nova-3 dekt nu 40+ met Engels als sterkste. Voor minder vertegenwoordigde talen draai eerst een sample — de nauwkeurigheid varieert sterk.

Question 5

Kan het verschillende sprekers herkennen (diarisatie)?

Accepted Answer

Ja, op de meeste flagships — diarisatie labelt elk segment met 'Speaker 1', 'Speaker 2', enz. De nauwkeurigheid hangt af van audiokwaliteit en hoe vaak sprekers overlappen. Sommige providers accepteren ook enrollment-audio om specifieke benoemde sprekers te identificeren.

Question 6

Worden timestamps geleverd?

Accepted Answer

Ja — timestamps op woord- of segmentniveau zijn standaard op flagshiptiers. Gebruik woordniveau voor video-captioning en karaoke-achtige highlighting; segmentniveau volstaat voor transcript-zoeken en meeting-samenvattingen.

Question 7

Welke audioformaten worden geaccepteerd?

Accepted Answer

MP3, WAV, M4A, FLAC, OGG en de meeste browser-native streamingformaten. Samplerates van 8 kHz (telefonie) tot 48 kHz (studio). De maximale bestandsgrootte varieert — doorgaans 25 MB op managed API's en onbeperkt voor self-hosted Whisper.

Question 8

Kan het tegelijk vertalen en transcriberen?

Accepted Answer

Ja — Whisper heeft een ingebouwde translate-modus die Engelse transcripts produceert vanuit elk van de 99 ondersteunde brontalen. ElevenLabs Scribe en enkele andere providers ondersteunen vertaling naar een bredere doelset. De vertaalnauwkeurigheid is lager dan bij toegewijde vertaalmodellen — prima voor zoeken maar niet voor publicatie.

Speech-to-Text

Speech-to-text-modellen voor transcriptie, meetings en zoeken

Incredibly Fast Whisper

Whisper

Whisper Large V3

Whisper Large v3 Turbo

Deepgram Nova-3

SeamlessM4T

SeamlessM4T v2 Large (Speech)

Whisper Diarization

WhisperX

Top speech-to-text picks

Popular use cases

Related comparisons

Whisper Large V3 vs Deepgram Nova-3

Frequently asked questions

Start Building with AI