Speech-to-Text
Transcribe and understand audio with AI
Modèles reconnaissance vocale pour transcription, réunions et recherche
Les modèles de reconnaissance vocale (STT) convertissent l'audio parlé en texte écrit. La catégorie couvre tout, des transcriptions de podcast aux pipelines de sous-titrage temps réel en passant par les interfaces à commande vocale dans les applis mobiles. On y a recours quand on veut chercher à l'intérieur de l'audio, construire de la dictée, résumer des réunions ou générer des sous-titres pour l'accessibilité.
5 models available
Whisper Large V3
OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Whisper Large v3 Turbo
OpenAI's distilled Whisper Large v3. ~216x realtime, 99+ languages, MIT-licensed weights.
Deepgram Nova-3
Deepgram's flagship STT. First to offer realtime multilingual transcription with self-serve customization.
ElevenLabs Scribe v1
ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.
SeamlessM4T v2 Large (Speech)
Meta SeamlessM4T v2 Large speech mode. Speech-to-speech, speech-to-text, and text-to-speech translation across 100+ languages in a single unified model.
Top speech-to-text picks
Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.
OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.
Learn moreOpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreOpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreLa tarification est presque toujours à la minute d'audio. Les modèles phares (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) coûtent environ 0,005 à 0,015 € par minute. La transcription d'un podcast d'une heure coûte 0,30 à 0,90 € selon le tiers. Certains fournisseurs facturent en plus des fonctionnalités premium comme la diarisation, les timestamps mot à mot, les résumés ou la traduction, alors faites les calculs avec les fonctionnalités que vous activez vraiment.
Le compromis est précision, latence et richesse fonctionnelle. Whisper Large V3 mène sur le taux d'erreur mot brut dans les évaluations benchmark et est open-weights, donc vous pouvez l'auto-héberger. Deepgram Nova-3 et AssemblyAI Universal mènent sur la latence streaming (premier token sous 300 ms) et la qualité de diarisation. ElevenLabs Scribe mène sur la couverture multilingue et le code-switching (quand les locuteurs alternent les langues en cours de phrase). Pour la transcription par lots, Whisper gagne généralement sur coût-et-précision. Pour la transcription d'appels temps réel, un fournisseur streaming-first gagne.
Attention à l'audio bruité : le taux d'erreur mot environ double sous 20 dB SNR sur chaque modèle, et les locuteurs qui se chevauchent dégradent la diarisation même sur les phares. Pré-traitez avec un modèle de suppression de bruit (RNNoise, Krisp) si votre source est imprévisible. Attention aussi aux noms propres : chaque modèle transcrit encore mal les noms peu communs, les termes techniques et les marques. La plupart des fournisseurs acceptent une liste d'indices `keywords` pour biaiser le décodeur — utilisez-la.
Les top picks ci-dessus couvrent le modèle le plus précis, le cheval de trait le moins cher, le support d'audio le plus long et l'option streaming la plus rapide.
Popular use cases
Common patterns built with speech-to-text on Railwail.
Related comparisons
Side-by-side reviews of the most-compared models in this category.
Frequently asked questions
Start Building with AI
Access all models through a single API. Get free credits when you sign up — no credit card required.