Speech-to-Text
Transcribe and understand audio with AI
Modelos speech-to-text para transcrição, reuniões e pesquisa
Os modelos speech-to-text (STT) convertem áudio falado em texto escrito. A categoria cobre desde transcrições de podcasts a pipelines de legendagem em tempo real e interfaces de comando por voz em apps móveis. Recorra ao STT quando precisar de pesquisar dentro de áudio, construir ditado, resumir reuniões ou gerar legendas para acessibilidade.
5 models available
Whisper Large V3
OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Whisper Large v3 Turbo
OpenAI's distilled Whisper Large v3. ~216x realtime, 99+ languages, MIT-licensed weights.
Deepgram Nova-3
Deepgram's flagship STT. First to offer realtime multilingual transcription with self-serve customization.
ElevenLabs Scribe v1
ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.
SeamlessM4T v2 Large (Speech)
Meta SeamlessM4T v2 Large speech mode. Speech-to-speech, speech-to-text, and text-to-speech translation across 100+ languages in a single unified model.
Top speech-to-text picks
Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.
OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.
Learn moreOpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreOpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreO pricing é quase sempre por minuto de áudio. Os modelos flagship (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) custam cerca de €0,005-€0,015 por minuto. A transcrição de um podcast de uma hora custa €0,30-€0,90 consoante o tier. Alguns fornecedores cobram extras por funcionalidades premium como diarização de oradores, timestamps ao nível da palavra, resumos ou tradução, por isso faça as contas com as funcionalidades que realmente vai ligar.
O compromisso é exatidão, latência e riqueza de funcionalidades. O Whisper Large V3 lidera em word-error-rate bruto nos benchmarks e é open-weights, ou seja, self-hostable. O Deepgram Nova-3 e o AssemblyAI Universal lideram em latência de streaming (sub-300ms ao primeiro token) e em qualidade da diarização. O ElevenLabs Scribe lidera em cobertura multilingue e em code-switching (quando os oradores trocam de língua a meio da frase). Para transcrição em batch, o Whisper costuma ganhar em custo-e-exatidão. Para transcrição de chamadas em tempo real, ganha um fornecedor streaming-first.
Atenção a áudio ruidoso: o word-error-rate duplica grosso modo abaixo de 20 dB de SNR em qualquer modelo, e oradores sobrepostos degradam a diarização mesmo nos flagships. Pré-processe com um modelo de supressão de ruído (RNNoise, Krisp) se a fonte for imprevisível. Atenção também aos nomes próprios: todos os modelos continuam a transcrever mal nomes invulgares, termos técnicos e nomes de marca. A maior parte dos fornecedores aceita uma lista de `keywords` para enviesar o decoder — use-a.
As top picks acima cobrem o modelo mais exato, o cavalo de batalha mais barato, o que suporta áudio mais longo e a opção de streaming mais rápida.
Popular use cases
Common patterns built with speech-to-text on Railwail.
Related comparisons
Side-by-side reviews of the most-compared models in this category.
Frequently asked questions
Start Building with AI
Access all models through a single API. Get free credits when you sign up — no credit card required.