Question 1

¿Qué modelo STT es el más preciso?

Accepted Answer

Whisper Large V3 lidera en tasa de error de palabra en los benchmarks independientes en la mayoría de idiomas. Deepgram Nova-3 lidera en inglés con streaming de baja latencia. AssemblyAI Universal lidera en audio de centros de llamadas y reuniones. Ejecuta una muestra de tu propio audio en la página de detalle del modelo antes de comprometerte.

Question 2

¿Se admite streaming en tiempo real?

Accepted Answer

Sí — Deepgram, AssemblyAI, ElevenLabs Scribe y OpenAI Realtime hacen streaming de transcripciones con latencia de primer token por debajo de 300 ms. Los proveedores solo por lotes (algunos despliegues de Whisper) van por detrás aquí. Para subtitulado y agentes de voz, elige siempre un modelo con streaming.

Question 3

¿Cómo se factura el STT?

Accepted Answer

Por minuto de audio. Las tarifas puntero rondan los 0,005-0,015 € por minuto. Las funciones premium (diarización, marcas de tiempo, traducción) a veces llevan recargos. Una entrevista típica de una hora cuesta 0,30-0,90 €.

Question 4

¿Qué idiomas se admiten?

Accepted Answer

Whisper Large V3 admite 99 idiomas. ElevenLabs Scribe cubre más de 100 con fuerte code-switching. Deepgram Nova-3 actualmente cubre más de 40 con inglés como más fuerte. Para idiomas de menor recurso, ejecuta primero una muestra — la precisión varía mucho.

Question 5

¿Puede identificar a distintos hablantes (diarización)?

Accepted Answer

Sí en la mayoría de los punteros — la diarización de hablantes etiqueta cada segmento con «Hablante 1», «Hablante 2», etc. La precisión depende de la calidad del audio y de la frecuencia con la que se solapan los hablantes. Algunos proveedores también aceptan audio de enrolamiento para identificar hablantes nombrados específicos.

Question 6

¿Se proporcionan marcas de tiempo?

Accepted Answer

Sí — las marcas de tiempo a nivel de palabra o segmento son estándar en los niveles puntero. Usa nivel de palabra para subtitulado de vídeo y resaltado estilo karaoke; el nivel de segmento es suficiente para búsqueda de transcripciones y resúmenes de reuniones.

Question 7

¿Qué formatos de audio se aceptan?

Accepted Answer

MP3, WAV, M4A, FLAC, OGG y la mayoría de formatos de streaming nativos del navegador. Frecuencias de muestreo desde 8 kHz (telefonía) hasta 48 kHz (estudio). El tamaño máximo del archivo varía — típicamente 25 MB en APIs gestionadas e ilimitado para Whisper auto-alojado.

Question 8

¿Puede traducir mientras transcribe?

Accepted Answer

Sí — Whisper tiene un modo de traducción integrado que produce transcripciones en inglés desde cualquiera de sus 99 idiomas de origen. ElevenLabs Scribe y algunos otros proveedores admiten traducción hacia un conjunto destino más amplio. La precisión de traducción es menor que la de los modelos de traducción dedicados — bien para búsqueda pero no para publicación.

Speech-to-Text

Modelos de voz a texto para transcripción, reuniones y búsqueda

Incredibly Fast Whisper

Whisper

Whisper Large V3

Whisper Large v3 Turbo

Deepgram Nova-3

SeamlessM4T

SeamlessM4T v2 Large (Speech)

Whisper Diarization

WhisperX

Top speech-to-text picks

Popular use cases

Related comparisons

Whisper Large V3 vs Deepgram Nova-3

Frequently asked questions

Start Building with AI