Question 1

Który model STT jest najdokładniejszy?

Accepted Answer

Whisper Large V3 prowadzi w word-error-rate w niezależnych benchmarkach w większości języków. Deepgram Nova-3 prowadzi w angielskim ze streamingiem o niskim opóźnieniu. AssemblyAI Universal prowadzi w audio z call center i ze spotkań. Uruchom próbkę własnego audio na stronie szczegółów modelu, zanim się zwiążesz.

Question 2

Czy streaming w czasie rzeczywistym jest wspierany?

Accepted Answer

Tak — Deepgram, AssemblyAI, ElevenLabs Scribe i OpenAI Realtime strumieniują transkrypcje z opóźnieniem do pierwszego tokenu poniżej 300ms. Dostawcy tylko batch (niektóre deploymenty Whisper) tu się ślimaczą. Dla napisów i agentów głosowych zawsze wybieraj model z możliwością streamingu.

Question 3

Jak rozliczane jest STT?

Accepted Answer

Za minutę audio. Flagshipowe stawki idą €0,005-€0,015 za minutę. Funkcje premium (diaryzacja, znaczniki czasu, tłumaczenie) czasem niosą dopłaty. Typowy godzinny wywiad kosztuje €0,30-€0,90.

Question 4

Jakie języki są wspierane?

Accepted Answer

Whisper Large V3 wspiera 99 języków. ElevenLabs Scribe pokrywa 100+ z silnym code-switchingiem. Deepgram Nova-3 pokrywa obecnie 40+ z angielskim jako najsilniejszym. Dla języków mniej zasobnych uruchom najpierw próbkę — dokładność mocno się różni.

Question 5

Czy potrafi rozróżniać mówców (diaryzacja)?

Accepted Answer

Tak w większości flagshipów — diaryzacja etykietuje każdy segment jako 'Speaker 1', 'Speaker 2' itd. Dokładność zależy od jakości audio i jak często mówcy się nakładają. Niektórzy dostawcy akceptują też audio enrollmentowe, by identyfikować konkretnych nazwanych mówców.

Question 6

Czy znaczniki czasu są dostarczane?

Accepted Answer

Tak — znaczniki czasu na poziomie słowa lub segmentu są standardem na tierach flagship. Używaj poziomu słowa do napisów w wideo i podświetlania w stylu karaoke; poziom segmentu wystarczy do wyszukiwania w transkrypcjach i podsumowań spotkań.

Question 7

Jakie formaty audio są akceptowane?

Accepted Answer

MP3, WAV, M4A, FLAC, OGG i większość formatów streamingowych natywnych dla przeglądarki. Częstotliwości próbkowania od 8 kHz (telefonia) do 48 kHz (studio). Maksymalny rozmiar pliku się różni — zwykle 25 MB na API zarządzanych i bez limitu dla self-hostowanego Whispera.

Question 8

Czy potrafi tłumaczyć podczas transkrypcji?

Accepted Answer

Tak — Whisper ma wbudowany tryb translate, który produkuje angielską transkrypcję z dowolnego z 99 wspieranych języków źródłowych. ElevenLabs Scribe i kilku innych dostawców wspiera tłumaczenie na szerszy zestaw docelowy. Dokładność tłumaczenia jest niższa niż w dedykowanych modelach tłumaczeniowych — okej do wyszukiwania, ale nie do publikacji.

Speech-to-Text

Modele speech-to-text do transkrypcji, spotkań i wyszukiwania

Incredibly Fast Whisper

Whisper

Whisper Large V3

Whisper Large v3 Turbo

Deepgram Nova-3

SeamlessM4T

SeamlessM4T v2 Large (Speech)

Whisper Diarization

WhisperX

Top speech-to-text picks

Popular use cases

Related comparisons

Whisper Large V3 vs Deepgram Nova-3

Frequently asked questions

Start Building with AI