- Дата публикации
TADA: голосовой ИИ без галлюцинаций и с речью быстрее реального времени
Что появилось / что изменилось
Hume AI открыла исходный код TADA (Text-Acoustic Dual Alignment) — системы генерации речи на базе LLM, которая синхронизирует текст и аудио один к одному.
Ключевые факты:
- Скорость: real-time factor (RTF) 0,09. Это более чем в 5 раз быстрее сопоставимых LLM‑TTS-систем. То есть TADA генерирует 1 секунду речи примерно за 0,09 секунды.
- Плотность токенов: 2–3 токена на секунду аудио против 12,5–75 токенов в других подходах. За счёт этого снижается нагрузка на память и ускоряется вывод.
- Надёжность: на более чем 1000 тестовых примеров из LibriTTSR система не дала ни одной галлюцинации по заданному порогу качества (CER > 0,15).
- Качество голоса: по человеческим оценкам на датасете EARS — 4,18/5 по похожести на диктора и 3,78/5 по естественности. Второй результат среди сравниваемых систем, при том что конкуренты обучались на больших объёмах данных.
- Контекст: при стандартном окне в 2048 токенов обычные системы выдерживают около 70 секунд речи. TADA за тот же бюджет даёт примерно 700 секунд — больше 10 минут.
- Развёртывание: модель достаточно компактна для запуска на смартфонах и edge‑устройствах без обязательного обращения в облако.
- Доступность: исходный код и предобученные модели уже выложены в открытый доступ.
Как это работает
Классические LLM‑TTS сталкиваются с перекосом: одна секунда текста — это 2–3 текстовых токена, а аудио — 12,5–25 и более акустических кадров. Модель должна держать в контексте длинную цепочку аудио‑токенов, которая многократно превышает длину текста. Это замедляет работу и повышает риск того, что система «забудет», что должна произнести.
Большинство решений пытаются сжать аудио: уменьшают частоту кадров или вводят промежуточные «семантические» токены между текстом и звуком. Цена — потеря выразительности, усложнение архитектуры или и то и другое сразу.
TADA идёт другим путём. Вместо дискретных токенов для каждого короткого куска аудио система выравнивает звук по тексту:
- один текстовый токен → один непрерывный акустический вектор;
- текст и речь движутся через LLM синхронно, шаг за шагом.
Что происходит под капотом:
- Входное аудио: энкодер вместе с модулем выравнивания берёт каждую текстовую единицу и извлекает из аудиосегмента соответствующие ей акустические признаки.
- Генерация: на каждом шаге LLM формирует скрытое состояние для текущего текстового токена. Это состояние идёт в flow‑matching‑голову, которая генерирует акустический вектор.
- Декодирование: акустические признаки превращаются в аудиосигнал и при необходимости подаются обратно в модель.
Поскольку на каждый шаг приходится ровно один текстовый токен и один акустический вектор, система не может пропустить фрагмент текста или вставить лишние слова — архитектура жёстко склеивает текст и звук.
Что это значит для вас
TADA интересна всем, кто строит голосовые интерфейсы поверх LLM.
Где технология особенно полезна:
- Мобильные приложения и edge‑устройства. Можно запускать TADA прямо на смартфоне или локальном устройстве. Это снижает задержку, уменьшает зависимость от внешних API и помогает с приватностью — не нужно отправлять голос в облако.
- Длинные аудиоформаты. Аудиокниги, обучающие курсы, подкасты, внутренняя документация в голосе. Благодаря экономному расходу токенов TADA держит в контексте до 700 секунд речи при типичном окне в 2048 токенов.
- Диалоги и ассистенты. Многоходовые беседы, где важно не терять нить разговора и не допускать странных вставок. Нулевая частота галлюцинаций в тестах снижает риск того, что голосовой ассистент «придумает» лишний текст.
- Регулируемые отрасли. Медицина, финансы, образование, где недопустимы пропуски фраз или искажение смысла. Архитектура TADA уменьшает количество пограничных случаев и объём ручной проверки.
Когда лучше смотреть в сторону других решений:
- Нужен максимально «живой» голос уровня топовых коммерческих TTS‑сервисов с тонкой актёрской игрой. Оценка естественности 3,78/5 — это хороший, но не эталонный результат.
- Критична идеальная стабильность голоса на очень длинных треках. Авторы отмечают случаи «дрейфа» тембра при генерации свыше 10 минут, пусть и с частичным решением через online rejection sampling и периодический сброс контекста.
Про доступность в России: исходники и модели лежат в открытом репозитории. Если доступ к площадке ограничен, может понадобиться VPN.
Место на рынке
TADA относится к классу LLM‑базированных систем TTS, но радикально сокращает число аудио‑токенов: 2–3 токена в секунду против 12,5–75 у других подходов. За счёт этого она достигает RTF 0,09 — более чем пятикратный выигрыш по скорости по сравнению с сопоставимыми решениями на базе LLM.
По надёжности TADA показывает нулевой уровень галлюцинаций на тесте LibriTTSR при пороге CER 0,15, при том что обучалась на крупном «диком» датасете без пост‑обучения на ручной разметке. Это ставит её в один ряд с системами, которые зависят от тщательно очищенных корпусов.
По качеству голоса TADA занимает второе место в человеческой оценке на EARS: 4,18/5 по похожести и 3,78/5 по естественности, уступая одному более крупному конкуренту и обходя несколько систем, обученных на больших массивах данных.
Авторы отдельно подчёркивают ещё один момент: при одновременной генерации текста и речи качество текста падает по сравнению с чисто текстовым режимом. Они предлагают метод Speech Free Gu (описание обрывается), так что здесь ещё есть поле для доработки.
Если вы строите голосовой продукт и готовы поработать с открытым кодом, TADA выглядит как практичный вариант для быстрых, надёжных и локально запускаемых голосовых интерфейсов, особенно в сценариях с длинным контекстом и жёсткими требованиями к отсутствию галлюцинаций.