Speech-to-Text

Transcribe and understand audio with AI

Modelli speech-to-text per trascrizione, riunioni e ricerca

I modelli speech-to-text (STT) convertono audio parlato in testo scritto. La categoria copre dalla trascrizione di podcast alle pipeline di sottotitolazione in tempo reale fino alle interfacce a comando vocale nelle app mobile. Si ricorre a STT quando bisogna cercare dentro l'audio, costruire dettatura, riassumere riunioni o generare sottotitoli per l'accessibilità.

Top speech-to-text picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Migliore in assoluto
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Più economico
ElevenLabs Scribe v1

ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.

Learn more
Audio più lungo
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Più veloce
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more

Il pricing è quasi sempre per minuto di audio. I modelli flagship (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) costano circa €0,005-€0,015 al minuto. Una trascrizione di un podcast di un'ora costa €0,30-€0,90 a seconda del tier. Alcuni fornitori addebitano un extra per funzionalità premium come diarizzazione, timestamp a livello di parola, riassunti o traduzione, quindi fate i conti con le funzioni che vi servono davvero attive.

Il compromesso è accuratezza, latenza e ricchezza di funzioni. Whisper Large V3 guida sul word-error-rate grezzo nei benchmark ed è open-weights, quindi potete self-hostarlo. Deepgram Nova-3 e AssemblyAI Universal guidano sulla latenza in streaming (sub-300ms al primo token) e sulla qualità della diarizzazione. ElevenLabs Scribe guida sulla copertura multilingue e sul code-switching (quando gli speaker cambiano lingua a metà frase). Per la trascrizione batch, Whisper di solito vince in costo-e-accuratezza. Per la trascrizione di chiamate in tempo reale, vince un fornitore streaming-first.

Attenzione all'audio rumoroso: il word-error-rate raddoppia circa sotto i 20 dB di SNR su ogni modello, e gli speaker sovrapposti peggiorano la diarizzazione anche sui flagship. Pre-processate con un modello di noise suppression (RNNoise, Krisp) se la sorgente è imprevedibile. Attenzione anche ai nomi propri: ogni modello continua a trascrivere male nomi insoliti, termini tecnici e brand. La maggior parte dei fornitori accetta una lista di `keywords` per orientare il decoder — usatela.

Le top picks qui sopra coprono il modello più accurato, il workhorse più economico, quello che supporta l'audio più lungo e l'opzione di streaming più veloce.

Related comparisons

Side-by-side reviews of the most-compared models in this category.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.