DuplexCascade: голосовой ИИ, который умеет говорить и слушать одновременно — VogueTech

Что нового

Исследователи Jianing Yang, Yusuke Fujita и Yui Sudo представили DuplexCascade — систему для голосового диалога «голос-в-голос» в режиме полного дуплекса.

Ключевые изменения по сравнению с привычными голосовыми ассистентами:

Полный дуплекс без VAD
DuplexCascade работает без модулей Voice Activity Detection (VAD), которые обычно решают, когда человек «закончил говорить».
Вместо этого система обрабатывает поток речи непрерывно и может говорить и слушать параллельно.
Микро-реплики вместо длинных очередей
Вместо длинных очередей «ты говоришь — потом ассистент говорит» DuplexCascade дробит речь на небольшие куски — chunk-wise micro-turns.
Это даёт быстрые отклики и ощущение живого собеседника, а не диктофона с паузами.
Сохранение «мозгов» текстового LLM
Архитектура остаётся каскадной: ASR → LLM → TTS.
DuplexCascade не жертвует интеллектуальным уровнем текстовой языковой модели ради end-to-end голоса.
Специальные управляющие токены для диалога
В LLM добавили набор специальных токенов, которые управляют тем, когда система должна начать говорить, замолчать, перебить или продолжить слушать.
Результаты на бенчмарках
На наборах Full-DuplexBench и VoiceBench DuplexCascade показывает:
- state-of-the-art качество по управлению очередностью (turn-taking) среди open-source систем голос-голос,
- при этом сохраняет сильный уровень «разговорного интеллекта».

Авторы отправили работу на конференцию Interspeech 2026.

Как это работает

DuplexCascade строится вокруг классического каскада, но оптимизированного под поток и полный дуплекс.

1. Потоковый каскад ASR → LLM → TTS

Архитектура выглядит так:

Streaming ASR
Распознавание речи работает в потоковом режиме и выдаёт текст не по завершённой фразе, а по небольшим блокам (чанкам).
LLM с управлением диалогом
Текстовые чанки сразу уходят в LLM.
Модель не ждёт, пока пользователь закончит мысль. Она начинает формировать ответ по мере поступления текста.
Streaming TTS
Генерируемый ответ тоже идёт чанками в синтез речи.
В итоге ассистент может начать говорить ещё до того, как пользователь полностью закончил реплику.

2. Микро-реплики (micro-turns)

Вместо одной длинной «реплики пользователя» DuplexCascade разбивает диалог на множество микро-обменов:

ASR выдаёт короткий текстовый фрагмент;
LLM решает, что с ним делать:
- продолжать слушать,
- начать отвечать,
- задать уточняющий вопрос.

За счёт этого:

снижается задержка ответа,
система может реагировать на интонацию, паузы и поправки «на лету».

3. Специальные управляющие токены

Чтобы LLM работала не как обычный чат-бот, а как голосовой собеседник в реальном времени, авторы ввели набор специальных токенов управления диалогом. Они сигнализируют:

когда начать озвучку;
когда временно замолчать и продолжать слушать;
когда завершить ответ;
как координировать момент «смены говорящего».

LLM обучают реагировать на эти токены с учётом стриминга: она учится не только подбирать слова, но и управлять ритмом диалога.

4. VAD-free: без детектора активности речи

Классические голосовые ассистенты опираются на VAD:

VAD решает, что пользователь замолчал,
только после этого запускается LLM+TTS.

Это приводит к полудуплексному режиму: сначала говорит человек, потом машина.

DuplexCascade отказывается от VAD и опирается на потоковый текст + управляющие токены.
Решение о начале или окончании ответа принимает LLM в процессе диалога.

5. Бенчмарки Full-DuplexBench и VoiceBench

Авторы тестируют систему на двух наборах:

Full-DuplexBench — фокус на качестве очередности в полном дуплексе,
VoiceBench — оценка голосового диалога и «интеллекта» собеседника.

DuplexCascade показывает state-of-the-art среди открытых систем голос-голос по:

адекватности смены говорящего,
сохранению качества ответов LLM.

Числовые метрики в аннотации не приводятся, но авторы прямо заявляют о лучшем результате среди open-source speech-to-speech систем.

Что это значит для вас

Для разработчиков голосовых ассистентов

DuplexCascade полезен, если вы:

делаете голосового помощника, который должен перебивать, уточнять и реагировать без длинных пауз;
строите диалоговые системы для колл-центров, где важно не «перебивать клиента», но и не заставлять его ждать;
разрабатываете роботов и голосовые интерфейсы для устройств, где человек общается «как с человеком», а не по схеме «сказал — подождал — услышал ответ».

Каскад ASR-LLM-TTS даёт возможность использовать мощную текстовую LLM, а не узкую голосовую end-to-end модель. Это важно, если вам нужны сложные сценарии, длинные контексты и нетривиальная логика.

Для исследователей и энтузиастов ИИ

DuplexCascade — хороший ориентир, если вы:

изучаете turn-taking и модели диалога в речи;
экспериментируете с streaming LLM и хотите управлять временем ответа;
сравниваете каскадные и end-to-end голосовые системы.

Работа опубликована на arXiv (arXiv:2603.09180), PDF и исходники доступны для детального разбора архитектуры и методов обучения.

Где система пока слабее

Из аннотации видно и ограничения подхода:

Нужен качественный потоковый ASR. Если распознавание даёт много ошибок, LLM будет строить ответ на «кривом» тексте.
Каскад чувствителен к задержкам в каждом модуле. Если ASR, LLM или TTS работают медленно, ощущение полного дуплекса пропадает.
Управляющие токены требуют дообучения LLM. Нельзя просто взять любую модель и ожидать корректного поведения без настройки.

Доступность

DuplexCascade — исследовательская работа на arXiv.
Это не готовый коммерческий продукт с приложением в магазине. Чтобы использовать подход, придётся:

поднимать свою инфраструктуру ASR, LLM и TTS,
интегрировать управляющие токены и стриминг.

Ограничений по регионам авторы не вводят, но для доступа к исходникам и коду (если они выложены в репозитории) может понадобиться доступ к GitHub и arXiv. В ряде случаев для этого используют VPN.

Место на рынке

DuplexCascade находится в сегменте open-source систем голос-в-голос с каскадной архитектурой.

По заявлению авторов:

на Full-DuplexBench и VoiceBench система даёт state-of-the-art качество:
- по управлению очередностью в полном дуплексе,
- при сохранении сильного уровня разговорного интеллекта.

Важный момент: DuplexCascade конкурирует именно с открытыми голос-голос системами, которые тоже используют ASR+LLM+TTS или end-to-end голосовые модели.

Чётких сравнений по скорости, стоимости инференса, длине контекста или сравнению с конкретными коммерческими моделями (например, GPT-4o или Claude 3.5 Sonnet в голосовом режиме) в аннотации нет.
Авторы делают акцент на двух вещах:

полный дуплекс без VAD в каскадной архитектуре;
лучшие результаты среди открытых решений на профильных бенчмарках.

Для студий, стартапов и лабораторий, которые строят свои голосовые ассистенты и хотят сохранить контроль над стеком (свой ASR, своё TTS, своя LLM), DuplexCascade задаёт референсный дизайн: как совместить мощную текстовую модель и живой голосовой диалог без искусственных пауз.