Kitten TTS 0.8: три сверхлёгкие голосовые модели, которые работают на обычном CPU — VogueTech

Что появилось / что изменилось

KittenML выпустила Kitten TTS v0.8 — обновление открытой библиотеки синтеза речи на базе ONNX с тремя новыми моделями:

kitten-tts-mini — 80M параметров, ~80 МБ на диске.
kitten-tts-micro — 40M параметров, ~41 МБ.
kitten-tts-nano — 15M параметров, ~56 МБ.
kitten-tts-nano int8 — 15M параметров, ужатая версия ~25 МБ.

Все варианты работают на CPU и выдают звук 24 кГц. GPU не нужен.

Встроено 8 голосов: Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki и Leo. Можно менять скорость речи через параметр speed (например, 0.9 или 1.2) и включать предобработку текста (clean_text), чтобы корректно зачитывать числа, валюты и единицы измерения.

Статус продукта — developer preview: API ещё могут меняться между релизами. Авторы отдельно предупреждают о возможных проблемах с моделью kitten-tts-nano-0.8-int8 и просят сообщать о багах.

Поддерживаются Linux, macOS и Windows, нужен Python 3.8+ и от 25 до 80 МБ свободного места под модель. Команда предлагает коммерческую поддержку и кастомные голоса.

Как это работает

Kitten TTS использует формат ONNX и оптимизирован для запуска на CPU. Модели хранятся в репозиториях Hugging Face (KittenML/kitten-tts-mini-0.8 и другие), библиотека скачивает и кэширует их локально.

Базовый сценарий:

from kittentts import KittenTTS
import soundfile as sf

model = KittenTTS("KittenML/kitten-tts-mini-0.8")
audio = model.generate(
    "This high-quality TTS model runs without a GPU.",
    voice="Jasper"
)

sf.write("output.wav", audio, 24000)

Функция generate возвращает NumPy-массив с аудио на 24 кГц. Можно указать:

voice — имя голоса (например, "Luna" или "Bruno").
speed — множитель скорости речи (по умолчанию 1.0).
clean_text — флаг предобработки текста.

Есть метод generate_to_file, который сразу пишет звук в файл с нужной частотой дискретизации (по умолчанию 24000 Гц). Через model.available_voices можно получить список всех голосов.

Установка идёт одной строкой через pip с прямой ссылкой на wheel-файл релиза 0.8.1. Разработчики рекомендуют использовать виртуальное окружение (venv, conda), чтобы не ловить конфликты зависимостей.

Что это значит для вас

Главная идея Kitten TTS — маленький размер и работа без GPU. Это подходит, если вы:

Делаете офлайн-голос для настольного приложения или скрипта, где нет доступа к облаку.
Хотите встроить TTS в edge-устройства и мини‑ПК, где каждый мегабайт важен.
Запускаете голосовой функционал на обычном сервере без видеокарты.

Примеры задач:

Озвучка интерфейса и уведомлений в десктопных и веб‑инструментах.
Прототипы голосовых ассистентов, ботов и внутренних тулов.
Генерация системных подсказок, обучающих роликов, документации.

Где инструмент может не подойти:

Массовая генерация аудиокниг и сложного контента, где критичны естественность и актёрская подача. Небольшие модели в 15–80M параметров здесь проиграют тяжёлым TTS-системам.
Сценарии, где нужна мультиязычность: в roadmap заявлен мультиязычный TTS, но пока это планы, не готовый продукт.
Долгосрочные коммерческие проекты, которые чувствительны к изменениям API. Сейчас библиотека в статусе developer preview, интерфейсы ещё могут меняться.

Kitten TTS распространяется под Apache 2.0, так что можно легально использовать его в коммерческих продуктах. Для компаний Stellon Labs предлагает платную поддержку, интеграцию и кастомные голоса.

Сервис не завязан на облачный API, всё работает локально. VPN не нужен, но для скачивания wheel-файла и моделей с GitHub и Hugging Face потребуется доступ к этим платформам.

Место на рынке

Kitten TTS идёт в другом направлении, чем тяжёлые облачные TTS‑сервисы от крупных игроков. Здесь ставка на:

Размер моделей: от 25 до 80 МБ, что заметно меньше, чем у типичных нейросетевых TTS‑систем с сотнями миллионов параметров и выше.
Он-прем запуск: всё крутится на CPU, без зависимости от внешнего API и без обязательной оплаты за запрос.
Открытый код и Apache 2.0: это упрощает аудит, форки и встраивание в свои продукты.

Цена и скорость не указаны, поэтому сравнивать напрямую с коммерческими TTS‑API вроде облачных решений крупных вендоров нельзя. Можно лишь зафиксировать позиционирование: Kitten TTS закрывает нишу лёгкого офлайн‑TTS, который влезает даже в скромную инфраструктуру и не требует отдельного GPU‑сервера.

В roadmap у команды — собственный оптимизированный inference‑движок, мобильный SDK, более качественные TTS‑модели, мультиязычный синтез и отдельный продукт KittenASR для распознавания речи. Если всё это появится, вокруг Kitten может сложиться компактный стек для локальной голосовой обработки — от текста к речи и обратно.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также