Speech-to-Text
Transcribe and understand audio with AI
Modelos de voz a texto para transcripción, reuniones y búsqueda
Los modelos de voz a texto (STT) convierten el audio hablado en texto escrito. La categoría cubre desde transcripciones de podcasts hasta pipelines de subtitulado en tiempo real e interfaces de comandos de voz dentro de apps móviles. Recurres a STT cuando necesitas buscar dentro de audio, construir dictado, resumir reuniones o generar subtítulos para accesibilidad.
5 models available
Whisper Large V3
OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Whisper Large v3 Turbo
OpenAI's distilled Whisper Large v3. ~216x realtime, 99+ languages, MIT-licensed weights.
Deepgram Nova-3
Deepgram's flagship STT. First to offer realtime multilingual transcription with self-serve customization.
ElevenLabs Scribe v1
ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.
SeamlessM4T v2 Large (Speech)
Meta SeamlessM4T v2 Large speech mode. Speech-to-speech, speech-to-text, and text-to-speech translation across 100+ languages in a single unified model.
Top speech-to-text picks
Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.
OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.
Learn moreOpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreOpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.
Learn moreLa tarificación es casi siempre por minuto de audio. Los modelos punteros (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) cuestan unos 0,005-0,015 € por minuto. La transcripción de un podcast de una hora cuesta 0,30-0,90 € según el nivel. Algunos proveedores cobran extra por funciones premium como diarización de hablantes, marcas de tiempo a nivel de palabra, resúmenes o traducción, así que haz las cuentas con las funciones que realmente vas a activar.
El compromiso es precisión, latencia y riqueza de funciones. Whisper Large V3 lidera en tasa de error de palabra bruta en las evaluaciones benchmark y es de pesos abiertos, así que puedes auto-alojarlo. Deepgram Nova-3 y AssemblyAI Universal lideran en latencia de streaming (primer token por debajo de 300 ms) y calidad de diarización. ElevenLabs Scribe lidera en cobertura multilingüe y code-switching (cuando los hablantes cambian de idioma a mitad de frase). Para transcripción por lotes, Whisper suele ganar en coste y precisión. Para transcripción de llamadas en tiempo real, gana un proveedor streaming-first.
Cuidado con el audio ruidoso: la tasa de error de palabra aproximadamente se duplica por debajo de 20 dB SNR en todos los modelos, y los hablantes que se solapan degradan la diarización incluso en los punteros. Pre-procesa con un modelo de supresión de ruido (RNNoise, Krisp) si tu fuente es impredecible. Cuidado también con los nombres propios: todos los modelos siguen transcribiendo mal nombres poco comunes, términos técnicos y nombres de marca. La mayoría de proveedores aceptan una lista de pistas `keywords` para sesgar el decodificador — úsala.
Las selecciones principales arriba cubren el modelo más preciso, el caballo de batalla más barato, el de mayor soporte de audio y la opción streaming más rápida.
Popular use cases
Common patterns built with speech-to-text on Railwail.
Related comparisons
Side-by-side reviews of the most-compared models in this category.
Frequently asked questions
Start Building with AI
Access all models through a single API. Get free credits when you sign up — no credit card required.