- Дата публикации
DuplexCascade: голосовой ИИ, который умеет говорить и слушать одновременно
Что нового
Исследователи Jianing Yang, Yusuke Fujita и Yui Sudo представили DuplexCascade — систему для голосового диалога «голос-в-голос» в режиме полного дуплекса.
Ключевые изменения по сравнению с привычными голосовыми ассистентами:
-
Полный дуплекс без VAD
DuplexCascade работает без модулей Voice Activity Detection (VAD), которые обычно решают, когда человек «закончил говорить».
Вместо этого система обрабатывает поток речи непрерывно и может говорить и слушать параллельно. -
Микро-реплики вместо длинных очередей
Вместо длинных очередей «ты говоришь — потом ассистент говорит» DuplexCascade дробит речь на небольшие куски — chunk-wise micro-turns.
Это даёт быстрые отклики и ощущение живого собеседника, а не диктофона с паузами. -
Сохранение «мозгов» текстового LLM
Архитектура остаётся каскадной: ASR → LLM → TTS.
DuplexCascade не жертвует интеллектуальным уровнем текстовой языковой модели ради end-to-end голоса. -
Специальные управляющие токены для диалога
В LLM добавили набор специальных токенов, которые управляют тем, когда система должна начать говорить, замолчать, перебить или продолжить слушать. -
Результаты на бенчмарках
На наборах Full-DuplexBench и VoiceBench DuplexCascade показывает:- state-of-the-art качество по управлению очередностью (turn-taking) среди open-source систем голос-голос,
- при этом сохраняет сильный уровень «разговорного интеллекта».
Авторы отправили работу на конференцию Interspeech 2026.
Как это работает
DuplexCascade строится вокруг классического каскада, но оптимизированного под поток и полный дуплекс.
1. Потоковый каскад ASR → LLM → TTS
Архитектура выглядит так:
-
Streaming ASR
Распознавание речи работает в потоковом режиме и выдаёт текст не по завершённой фразе, а по небольшим блокам (чанкам). -
LLM с управлением диалогом
Текстовые чанки сразу уходят в LLM.
Модель не ждёт, пока пользователь закончит мысль. Она начинает формировать ответ по мере поступления текста. -
Streaming TTS
Генерируемый ответ тоже идёт чанками в синтез речи.
В итоге ассистент может начать говорить ещё до того, как пользователь полностью закончил реплику.
2. Микро-реплики (micro-turns)
Вместо одной длинной «реплики пользователя» DuplexCascade разбивает диалог на множество микро-обменов:
- ASR выдаёт короткий текстовый фрагмент;
- LLM решает, что с ним делать:
- продолжать слушать,
- начать отвечать,
- задать уточняющий вопрос.
За счёт этого:
- снижается задержка ответа,
- система может реагировать на интонацию, паузы и поправки «на лету».
3. Специальные управляющие токены
Чтобы LLM работала не как обычный чат-бот, а как голосовой собеседник в реальном времени, авторы ввели набор специальных токенов управления диалогом. Они сигнализируют:
- когда начать озвучку;
- когда временно замолчать и продолжать слушать;
- когда завершить ответ;
- как координировать момент «смены говорящего».
LLM обучают реагировать на эти токены с учётом стриминга: она учится не только подбирать слова, но и управлять ритмом диалога.
4. VAD-free: без детектора активности речи
Классические голосовые ассистенты опираются на VAD:
- VAD решает, что пользователь замолчал,
- только после этого запускается LLM+TTS.
Это приводит к полудуплексному режиму: сначала говорит человек, потом машина.
DuplexCascade отказывается от VAD и опирается на потоковый текст + управляющие токены.
Решение о начале или окончании ответа принимает LLM в процессе диалога.
5. Бенчмарки Full-DuplexBench и VoiceBench
Авторы тестируют систему на двух наборах:
- Full-DuplexBench — фокус на качестве очередности в полном дуплексе,
- VoiceBench — оценка голосового диалога и «интеллекта» собеседника.
DuplexCascade показывает state-of-the-art среди открытых систем голос-голос по:
- адекватности смены говорящего,
- сохранению качества ответов LLM.
Числовые метрики в аннотации не приводятся, но авторы прямо заявляют о лучшем результате среди open-source speech-to-speech систем.
Что это значит для вас
Для разработчиков голосовых ассистентов
DuplexCascade полезен, если вы:
- делаете голосового помощника, который должен перебивать, уточнять и реагировать без длинных пауз;
- строите диалоговые системы для колл-центров, где важно не «перебивать клиента», но и не заставлять его ждать;
- разрабатываете роботов и голосовые интерфейсы для устройств, где человек общается «как с человеком», а не по схеме «сказал — подождал — услышал ответ».
Каскад ASR-LLM-TTS даёт возможность использовать мощную текстовую LLM, а не узкую голосовую end-to-end модель. Это важно, если вам нужны сложные сценарии, длинные контексты и нетривиальная логика.
Для исследователей и энтузиастов ИИ
DuplexCascade — хороший ориентир, если вы:
- изучаете turn-taking и модели диалога в речи;
- экспериментируете с streaming LLM и хотите управлять временем ответа;
- сравниваете каскадные и end-to-end голосовые системы.
Работа опубликована на arXiv (arXiv:2603.09180), PDF и исходники доступны для детального разбора архитектуры и методов обучения.
Где система пока слабее
Из аннотации видно и ограничения подхода:
- Нужен качественный потоковый ASR. Если распознавание даёт много ошибок, LLM будет строить ответ на «кривом» тексте.
- Каскад чувствителен к задержкам в каждом модуле. Если ASR, LLM или TTS работают медленно, ощущение полного дуплекса пропадает.
- Управляющие токены требуют дообучения LLM. Нельзя просто взять любую модель и ожидать корректного поведения без настройки.
Доступность
DuplexCascade — исследовательская работа на arXiv.
Это не готовый коммерческий продукт с приложением в магазине. Чтобы использовать подход, придётся:
- поднимать свою инфраструктуру ASR, LLM и TTS,
- интегрировать управляющие токены и стриминг.
Ограничений по регионам авторы не вводят, но для доступа к исходникам и коду (если они выложены в репозитории) может понадобиться доступ к GitHub и arXiv. В ряде случаев для этого используют VPN.
Место на рынке
DuplexCascade находится в сегменте open-source систем голос-в-голос с каскадной архитектурой.
По заявлению авторов:
- на Full-DuplexBench и VoiceBench система даёт state-of-the-art качество:
- по управлению очередностью в полном дуплексе,
- при сохранении сильного уровня разговорного интеллекта.
Важный момент: DuplexCascade конкурирует именно с открытыми голос-голос системами, которые тоже используют ASR+LLM+TTS или end-to-end голосовые модели.
Чётких сравнений по скорости, стоимости инференса, длине контекста или сравнению с конкретными коммерческими моделями (например, GPT-4o или Claude 3.5 Sonnet в голосовом режиме) в аннотации нет.
Авторы делают акцент на двух вещах:
- полный дуплекс без VAD в каскадной архитектуре;
- лучшие результаты среди открытых решений на профильных бенчмарках.
Для студий, стартапов и лабораторий, которые строят свои голосовые ассистенты и хотят сохранить контроль над стеком (свой ASR, своё TTS, своя LLM), DuplexCascade задаёт референсный дизайн: как совместить мощную текстовую модель и живой голосовой диалог без искусственных пауз.