Question 1

Quel modèle STT est le plus précis ?

Accepted Answer

Whisper Large V3 mène sur le taux d'erreur mot dans les benchmarks indépendants sur la plupart des langues. Deepgram Nova-3 mène sur l'anglais avec streaming basse latence. AssemblyAI Universal mène sur l'audio de centre d'appels et de réunions. Lancez un échantillon de votre propre audio sur la page détail du modèle avant de vous engager.

Question 2

Le streaming temps réel est-il pris en charge ?

Accepted Answer

Oui — Deepgram, AssemblyAI, ElevenLabs Scribe et OpenAI Realtime streament tous des transcriptions avec une latence du premier token sous 300 ms. Les fournisseurs batch uniquement (certains déploiements de Whisper) sont à la traîne ici. Pour le sous-titrage et les agents vocaux, choisissez toujours un modèle compatible streaming.

Question 3

Comment le STT est-il facturé ?

Accepted Answer

À la minute d'audio. Les tarifs phares tournent à 0,005-0,015 € par minute. Les fonctionnalités premium (diarisation, timestamps, traduction) portent parfois des surcoûts. Une interview typique d'une heure coûte 0,30 à 0,90 €.

Question 4

Quelles langues sont prises en charge ?

Accepted Answer

Whisper Large V3 prend en charge 99 langues. ElevenLabs Scribe couvre 100+ avec un fort code-switching. Deepgram Nova-3 couvre actuellement 40+ avec l'anglais comme plus fort. Pour les langues moins ressourcées, lancez d'abord un échantillon — la précision varie largement.

Question 5

Peut-il identifier différents locuteurs (diarisation) ?

Accepted Answer

Oui sur la plupart des phares — la diarisation des locuteurs étiquette chaque segment « Locuteur 1 », « Locuteur 2 », etc. La précision dépend de la qualité audio et de la fréquence des chevauchements. Certains fournisseurs acceptent aussi des audios d'enrôlement pour identifier des locuteurs nommés précis.

Question 6

Les timestamps sont-ils fournis ?

Accepted Answer

Oui — les timestamps mot à mot ou segment à segment sont standards sur les tiers phares. Utilisez le mot à mot pour le sous-titrage vidéo et la surbrillance karaoké ; le segment à segment suffit pour la recherche transcript et les résumés de réunion.

Question 7

Quels formats audio sont acceptés ?

Accepted Answer

MP3, WAV, M4A, FLAC, OGG et la plupart des formats streaming natifs du navigateur. Sample rates de 8 kHz (téléphonie) à 48 kHz (studio). La taille max de fichier varie — typiquement 25 Mo sur les API managées et illimité pour Whisper auto-hébergé.

Question 8

Peut-il traduire en transcrivant ?

Accepted Answer

Oui — Whisper a un mode traduction intégré qui produit des transcriptions en anglais depuis n'importe laquelle de ses 99 langues sources. ElevenLabs Scribe et quelques autres fournisseurs prennent en charge la traduction vers un ensemble cible plus large. La précision de traduction est plus basse que celle des modèles de traduction dédiés — bien pour la recherche mais pas pour la publication.

Speech-to-Text

Modèles reconnaissance vocale pour transcription, réunions et recherche

Incredibly Fast Whisper

Whisper

Whisper Large V3

Whisper Large v3 Turbo

Deepgram Nova-3

SeamlessM4T

SeamlessM4T v2 Large (Speech)

Whisper Diarization

WhisperX

Top speech-to-text picks

Popular use cases

Related comparisons

Whisper Large V3 vs Deepgram Nova-3

Frequently asked questions

Start Building with AI