Speech-to-Text

Transcribe and understand audio with AI

Modelos speech-to-text para transcrição, reuniões e pesquisa

Os modelos speech-to-text (STT) convertem áudio falado em texto escrito. A categoria cobre desde transcrições de podcasts a pipelines de legendagem em tempo real e interfaces de comando por voz em apps móveis. Recorra ao STT quando precisar de pesquisar dentro de áudio, construir ditado, resumir reuniões ou gerar legendas para acessibilidade.

Top speech-to-text picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Melhor no global
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Mais barato
ElevenLabs Scribe v1

ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.

Learn more
Áudio mais longo
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Mais rápido
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more

O pricing é quase sempre por minuto de áudio. Os modelos flagship (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) custam cerca de €0,005-€0,015 por minuto. A transcrição de um podcast de uma hora custa €0,30-€0,90 consoante o tier. Alguns fornecedores cobram extras por funcionalidades premium como diarização de oradores, timestamps ao nível da palavra, resumos ou tradução, por isso faça as contas com as funcionalidades que realmente vai ligar.

O compromisso é exatidão, latência e riqueza de funcionalidades. O Whisper Large V3 lidera em word-error-rate bruto nos benchmarks e é open-weights, ou seja, self-hostable. O Deepgram Nova-3 e o AssemblyAI Universal lideram em latência de streaming (sub-300ms ao primeiro token) e em qualidade da diarização. O ElevenLabs Scribe lidera em cobertura multilingue e em code-switching (quando os oradores trocam de língua a meio da frase). Para transcrição em batch, o Whisper costuma ganhar em custo-e-exatidão. Para transcrição de chamadas em tempo real, ganha um fornecedor streaming-first.

Atenção a áudio ruidoso: o word-error-rate duplica grosso modo abaixo de 20 dB de SNR em qualquer modelo, e oradores sobrepostos degradam a diarização mesmo nos flagships. Pré-processe com um modelo de supressão de ruído (RNNoise, Krisp) se a fonte for imprevisível. Atenção também aos nomes próprios: todos os modelos continuam a transcrever mal nomes invulgares, termos técnicos e nomes de marca. A maior parte dos fornecedores aceita uma lista de `keywords` para enviesar o decoder — use-a.

As top picks acima cobrem o modelo mais exato, o cavalo de batalha mais barato, o que suporta áudio mais longo e a opção de streaming mais rápida.

Related comparisons

Side-by-side reviews of the most-compared models in this category.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.