Speech-to-Text
Transcribe and understand audio with AI
Modelli speech-to-text per trascrizione, riunioni e ricerca
I modelli speech-to-text (STT) convertono audio parlato in testo scritto. La categoria copre dalla trascrizione di podcast alle pipeline di sottotitolazione in tempo reale fino alle interfacce a comando vocale nelle app mobile. Si ricorre a STT quando bisogna cercare dentro l'audio, costruire dettatura, riassumere riunioni o generare sottotitoli per l'accessibilità .
5 models available
Whisper Large V3
OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Whisper Large v3 Turbo
OpenAI's distilled Whisper Large v3. ~216x realtime, 99+ languages, MIT-licensed weights.
Deepgram Nova-3
Deepgram's flagship STT. First to offer realtime multilingual transcription with self-serve customization.
ElevenLabs Scribe v1
ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.
SeamlessM4T v2 Large (Speech)
Meta SeamlessM4T v2 Large speech mode. Speech-to-speech, speech-to-text, and text-to-speech translation across 100+ languages in a single unified model.
Top speech-to-text picks
Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.
OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.
Learn moreOpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreOpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreIl pricing è quasi sempre per minuto di audio. I modelli flagship (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) costano circa €0,005-€0,015 al minuto. Una trascrizione di un podcast di un'ora costa €0,30-€0,90 a seconda del tier. Alcuni fornitori addebitano un extra per funzionalità premium come diarizzazione, timestamp a livello di parola, riassunti o traduzione, quindi fate i conti con le funzioni che vi servono davvero attive.
Il compromesso è accuratezza, latenza e ricchezza di funzioni. Whisper Large V3 guida sul word-error-rate grezzo nei benchmark ed è open-weights, quindi potete self-hostarlo. Deepgram Nova-3 e AssemblyAI Universal guidano sulla latenza in streaming (sub-300ms al primo token) e sulla qualità della diarizzazione. ElevenLabs Scribe guida sulla copertura multilingue e sul code-switching (quando gli speaker cambiano lingua a metà frase). Per la trascrizione batch, Whisper di solito vince in costo-e-accuratezza. Per la trascrizione di chiamate in tempo reale, vince un fornitore streaming-first.
Attenzione all'audio rumoroso: il word-error-rate raddoppia circa sotto i 20 dB di SNR su ogni modello, e gli speaker sovrapposti peggiorano la diarizzazione anche sui flagship. Pre-processate con un modello di noise suppression (RNNoise, Krisp) se la sorgente è imprevedibile. Attenzione anche ai nomi propri: ogni modello continua a trascrivere male nomi insoliti, termini tecnici e brand. La maggior parte dei fornitori accetta una lista di `keywords` per orientare il decoder — usatela.
Le top picks qui sopra coprono il modello più accurato, il workhorse più economico, quello che supporta l'audio più lungo e l'opzione di streaming più veloce.
Popular use cases
Common patterns built with speech-to-text on Railwail.
Related comparisons
Side-by-side reviews of the most-compared models in this category.
Frequently asked questions
Start Building with AI
Access all models through a single API. Get free credits when you sign up — no credit card required.