Speech-to-Text

Transcribe and understand audio with AI

Modèles reconnaissance vocale pour transcription, réunions et recherche

Les modèles de reconnaissance vocale (STT) convertissent l'audio parlé en texte écrit. La catégorie couvre tout, des transcriptions de podcast aux pipelines de sous-titrage temps réel en passant par les interfaces à commande vocale dans les applis mobiles. On y a recours quand on veut chercher à l'intérieur de l'audio, construire de la dictée, résumer des réunions ou générer des sous-titres pour l'accessibilité.

Top speech-to-text picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Meilleur global
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Le moins cher
ElevenLabs Scribe v1

ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.

Learn more
Audio le plus long
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Le plus rapide
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more

La tarification est presque toujours à la minute d'audio. Les modèles phares (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) coûtent environ 0,005 à 0,015 € par minute. La transcription d'un podcast d'une heure coûte 0,30 à 0,90 € selon le tiers. Certains fournisseurs facturent en plus des fonctionnalités premium comme la diarisation, les timestamps mot à mot, les résumés ou la traduction, alors faites les calculs avec les fonctionnalités que vous activez vraiment.

Le compromis est précision, latence et richesse fonctionnelle. Whisper Large V3 mène sur le taux d'erreur mot brut dans les évaluations benchmark et est open-weights, donc vous pouvez l'auto-héberger. Deepgram Nova-3 et AssemblyAI Universal mènent sur la latence streaming (premier token sous 300 ms) et la qualité de diarisation. ElevenLabs Scribe mène sur la couverture multilingue et le code-switching (quand les locuteurs alternent les langues en cours de phrase). Pour la transcription par lots, Whisper gagne généralement sur coût-et-précision. Pour la transcription d'appels temps réel, un fournisseur streaming-first gagne.

Attention à l'audio bruité : le taux d'erreur mot environ double sous 20 dB SNR sur chaque modèle, et les locuteurs qui se chevauchent dégradent la diarisation même sur les phares. Pré-traitez avec un modèle de suppression de bruit (RNNoise, Krisp) si votre source est imprévisible. Attention aussi aux noms propres : chaque modèle transcrit encore mal les noms peu communs, les termes techniques et les marques. La plupart des fournisseurs acceptent une liste d'indices `keywords` pour biaiser le décodeur — utilisez-la.

Les top picks ci-dessus couvrent le modèle le plus précis, le cheval de trait le moins cher, le support d'audio le plus long et l'option streaming la plus rapide.

Related comparisons

Side-by-side reviews of the most-compared models in this category.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.