TTS-модели на русском: VibeVoice, Kokoro и Chatterbox на тесте — VogueTech

Что появилось / что изменилось

Появились бесплатные нейросетевые модели для синтеза речи (TTS). Microsoft выпустила VibeVoice-Realtime-0.5B с контекстом в 8000 токенов и поддержкой генерации до 10 минут аудио. Модель Kokoro-TTS работает с 82 млн параметров и поддерживает американский и британский английский. Chatterbox TTS — открытый аналог коммерческих сервисов с архитектурой на ~0.5B параметров, позволяющий настраивать экспрессию речи.

Как это работает

VibeVoice использует параметр CFG Scale: низкие значения дают выразительность, но возможны аномалии, высокие — четкость, но монотонность. Kokoro-TTS анализирует пунктуацию и позволяет расставлять ударения вручную, а также использовать фонетическую транскрипцию. Chatterbox TTS генерирует голос на основе референсной аудиозаписи и управляет просодической экспрессией — интонацией, паузами, акцентами.

Что это значит для вас

VibeVoice можно использовать для озвучки русских текстов, но будьте готовы к заметному акценту. Для английского она подходит лучше, хотя иногда добавляет фоновый шум. Kokoro-TTS — вариант только для английских текстов, русский она не понимает. Chatterbox TTS с русским языком не справляется, читая текст как бессмысленный набор звуков. Если вам нужна качественная озвучка на русском, эти бесплатные модели — временное или экспериментальное решение. Для профессиональных задач ищите специализированные сервисы.

Место на рынке

VibeVoice выигрывает у Kokoro и Chatterbox в поддержке русского языка, но проигрывает им в чистоте английской речи. Kokoro-TTS предлагает тонкий контроль над произношением английского, но только для двух диалектов. Chatterbox TTS — наиболее гибкая в настройке экспрессии, но фактически бесполезна для русскоязычного контента. Ни одна из рассмотренных моделей не является прямой заменой платным сервисам вроде ElevenLabs для русской речи.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также