Question 1

Que modelo STT é o mais exato?

Accepted Answer

O Whisper Large V3 lidera em word-error-rate nos benchmarks independentes na maior parte das línguas. O Deepgram Nova-3 lidera em inglês com streaming de baixa latência. O AssemblyAI Universal lidera em áudio de call center e de reuniões. Corra uma amostra do seu áudio na página de detalhe do modelo antes de se comprometer.

Question 2

O streaming em tempo real é suportado?

Accepted Answer

Sim — o Deepgram, o AssemblyAI, o ElevenLabs Scribe e o OpenAI Realtime fazem streaming de transcrição com latência ao primeiro token abaixo de 300ms. Fornecedores só-batch (algumas implementações Whisper) ficam atrás. Para legendagem e voice agents, escolha sempre um modelo capaz de streaming.

Question 3

Como é faturado o STT?

Accepted Answer

Por minuto de áudio. As tarifas flagship vão de €0,005 a €0,015 por minuto. As funcionalidades premium (diarização, timestamps, tradução) por vezes têm sobrecustos. Uma entrevista típica de uma hora custa €0,30-€0,90.

Question 4

Que línguas são suportadas?

Accepted Answer

O Whisper Large V3 suporta 99 línguas. O ElevenLabs Scribe cobre 100+ com forte code-switching. O Deepgram Nova-3 cobre hoje 40+ com o inglês como mais forte. Para línguas com menor cobertura, corra uma amostra primeiro — a exatidão varia bastante.

Question 5

Consegue identificar diferentes oradores (diarização)?

Accepted Answer

Sim na maioria dos flagships — a diarização etiqueta cada segmento com 'Speaker 1', 'Speaker 2', etc. A exatidão depende da qualidade do áudio e de quantas vezes os oradores se sobrepõem. Alguns fornecedores aceitam também áudio de enrollment para identificar oradores nomeados.

Question 6

São fornecidos timestamps?

Accepted Answer

Sim — timestamps ao nível da palavra ou do segmento são standard nos tiers flagship. Use o nível palavra para legendagem de vídeo e destaque tipo karaoke; o nível segmento chega para pesquisa em transcrições e resumos de reuniões.

Question 7

Que formatos de áudio são aceites?

Accepted Answer

MP3, WAV, M4A, FLAC, OGG e a maioria dos formatos de streaming nativos do browser. Taxas de amostragem de 8 kHz (telefonia) até 48 kHz (estúdio). O tamanho máximo do ficheiro varia — normalmente 25 MB em APIs geridas e ilimitado em Whisper self-hosted.

Question 8

Consegue traduzir enquanto transcreve?

Accepted Answer

Sim — o Whisper tem um modo translate incorporado que produz transcrição em inglês a partir de qualquer uma das 99 línguas-fonte suportadas. O ElevenLabs Scribe e alguns outros fornecedores suportam tradução para um conjunto-alvo mais alargado. A exatidão da tradução é inferior à de modelos de tradução dedicados — chega para pesquisa, mas não para publicação.

Speech-to-Text

Modelos speech-to-text para transcrição, reuniões e pesquisa

Incredibly Fast Whisper

Whisper

Whisper Large V3

Whisper Large v3 Turbo

Deepgram Nova-3

SeamlessM4T

SeamlessM4T v2 Large (Speech)

Whisper Diarization

WhisperX

Top speech-to-text picks

Popular use cases

Related comparisons

Whisper Large V3 vs Deepgram Nova-3

Frequently asked questions

Start Building with AI