- Дата публикации
TTS-модели на русском: VibeVoice, Kokoro и Chatterbox на тесте
Что появилось / что изменилось
Появились бесплатные нейросетевые модели для синтеза речи (TTS). Microsoft выпустила VibeVoice-Realtime-0.5B с контекстом в 8000 токенов и поддержкой генерации до 10 минут аудио. Модель Kokoro-TTS работает с 82 млн параметров и поддерживает американский и британский английский. Chatterbox TTS — открытый аналог коммерческих сервисов с архитектурой на ~0.5B параметров, позволяющий настраивать экспрессию речи.
Как это работает
VibeVoice использует параметр CFG Scale: низкие значения дают выразительность, но возможны аномалии, высокие — четкость, но монотонность. Kokoro-TTS анализирует пунктуацию и позволяет расставлять ударения вручную, а также использовать фонетическую транскрипцию. Chatterbox TTS генерирует голос на основе референсной аудиозаписи и управляет просодической экспрессией — интонацией, паузами, акцентами.
Что это значит для вас
VibeVoice можно использовать для озвучки русских текстов, но будьте готовы к заметному акценту. Для английского она подходит лучше, хотя иногда добавляет фоновый шум. Kokoro-TTS — вариант только для английских текстов, русский она не понимает. Chatterbox TTS с русским языком не справляется, читая текст как бессмысленный набор звуков. Если вам нужна качественная озвучка на русском, эти бесплатные модели — временное или экспериментальное решение. Для профессиональных задач ищите специализированные сервисы.
Место на рынке
VibeVoice выигрывает у Kokoro и Chatterbox в поддержке русского языка, но проигрывает им в чистоте английской речи. Kokoro-TTS предлагает тонкий контроль над произношением английского, но только для двух диалектов. Chatterbox TTS — наиболее гибкая в настройке экспрессии, но фактически бесполезна для русскоязычного контента. Ни одна из рассмотренных моделей не является прямой заменой платным сервисам вроде ElevenLabs для русской речи.