Speech-to-Text

Transcribe and understand audio with AI

Modelos de voz a texto para transcripción, reuniones y búsqueda

Los modelos de voz a texto (STT) convierten el audio hablado en texto escrito. La categoría cubre desde transcripciones de podcasts hasta pipelines de subtitulado en tiempo real e interfaces de comandos de voz dentro de apps móviles. Recurres a STT cuando necesitas buscar dentro de audio, construir dictado, resumir reuniones o generar subtítulos para accesibilidad.

Top speech-to-text picks

Hand-picked across four common criteria — resolved against the live catalog so the picks track price and performance changes.

Mejor en general
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Más barato
ElevenLabs Scribe v1

ElevenLabs' STT. 99 languages, word-level timestamps, speaker diarization, audio-event tagging.

Learn more
Audio más largo
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more
Más rápido
Whisper Large V3

OpenAI's Whisper model. State-of-the-art speech recognition supporting 99+ languages.

Learn more

La tarificación es casi siempre por minuto de audio. Los modelos punteros (Whisper Large V3, Deepgram Nova-3, ElevenLabs Scribe) cuestan unos 0,005-0,015 € por minuto. La transcripción de un podcast de una hora cuesta 0,30-0,90 € según el nivel. Algunos proveedores cobran extra por funciones premium como diarización de hablantes, marcas de tiempo a nivel de palabra, resúmenes o traducción, así que haz las cuentas con las funciones que realmente vas a activar.

El compromiso es precisión, latencia y riqueza de funciones. Whisper Large V3 lidera en tasa de error de palabra bruta en las evaluaciones benchmark y es de pesos abiertos, así que puedes auto-alojarlo. Deepgram Nova-3 y AssemblyAI Universal lideran en latencia de streaming (primer token por debajo de 300 ms) y calidad de diarización. ElevenLabs Scribe lidera en cobertura multilingüe y code-switching (cuando los hablantes cambian de idioma a mitad de frase). Para transcripción por lotes, Whisper suele ganar en coste y precisión. Para transcripción de llamadas en tiempo real, gana un proveedor streaming-first.

Cuidado con el audio ruidoso: la tasa de error de palabra aproximadamente se duplica por debajo de 20 dB SNR en todos los modelos, y los hablantes que se solapan degradan la diarización incluso en los punteros. Pre-procesa con un modelo de supresión de ruido (RNNoise, Krisp) si tu fuente es impredecible. Cuidado también con los nombres propios: todos los modelos siguen transcribiendo mal nombres poco comunes, términos técnicos y nombres de marca. La mayoría de proveedores aceptan una lista de pistas `keywords` para sesgar el decodificador — úsala.

Las selecciones principales arriba cubren el modelo más preciso, el caballo de batalla más barato, el de mayor soporte de audio y la opción streaming más rápida.

Related comparisons

Side-by-side reviews of the most-compared models in this category.

Frequently asked questions

Start Building with AI

Access all models through a single API. Get free credits when you sign up — no credit card required.