Дата публикации
ai_products

DuplexCascade: голосовой ИИ, который умеет говорить и слушать одновременно

Что нового

Исследователи Jianing Yang, Yusuke Fujita и Yui Sudo представили DuplexCascade — систему для голосового диалога «голос-в-голос» в режиме полного дуплекса.

Ключевые изменения по сравнению с привычными голосовыми ассистентами:

  • Полный дуплекс без VAD
    DuplexCascade работает без модулей Voice Activity Detection (VAD), которые обычно решают, когда человек «закончил говорить».
    Вместо этого система обрабатывает поток речи непрерывно и может говорить и слушать параллельно.

  • Микро-реплики вместо длинных очередей
    Вместо длинных очередей «ты говоришь — потом ассистент говорит» DuplexCascade дробит речь на небольшие куски — chunk-wise micro-turns.
    Это даёт быстрые отклики и ощущение живого собеседника, а не диктофона с паузами.

  • Сохранение «мозгов» текстового LLM
    Архитектура остаётся каскадной: ASR → LLM → TTS.
    DuplexCascade не жертвует интеллектуальным уровнем текстовой языковой модели ради end-to-end голоса.

  • Специальные управляющие токены для диалога
    В LLM добавили набор специальных токенов, которые управляют тем, когда система должна начать говорить, замолчать, перебить или продолжить слушать.

  • Результаты на бенчмарках
    На наборах Full-DuplexBench и VoiceBench DuplexCascade показывает:

    • state-of-the-art качество по управлению очередностью (turn-taking) среди open-source систем голос-голос,
    • при этом сохраняет сильный уровень «разговорного интеллекта».

Авторы отправили работу на конференцию Interspeech 2026.

Как это работает

DuplexCascade строится вокруг классического каскада, но оптимизированного под поток и полный дуплекс.

1. Потоковый каскад ASR → LLM → TTS

Архитектура выглядит так:

  1. Streaming ASR
    Распознавание речи работает в потоковом режиме и выдаёт текст не по завершённой фразе, а по небольшим блокам (чанкам).

  2. LLM с управлением диалогом
    Текстовые чанки сразу уходят в LLM.
    Модель не ждёт, пока пользователь закончит мысль. Она начинает формировать ответ по мере поступления текста.

  3. Streaming TTS
    Генерируемый ответ тоже идёт чанками в синтез речи.
    В итоге ассистент может начать говорить ещё до того, как пользователь полностью закончил реплику.

2. Микро-реплики (micro-turns)

Вместо одной длинной «реплики пользователя» DuplexCascade разбивает диалог на множество микро-обменов:

  • ASR выдаёт короткий текстовый фрагмент;
  • LLM решает, что с ним делать:
    • продолжать слушать,
    • начать отвечать,
    • задать уточняющий вопрос.

За счёт этого:

  • снижается задержка ответа,
  • система может реагировать на интонацию, паузы и поправки «на лету».

3. Специальные управляющие токены

Чтобы LLM работала не как обычный чат-бот, а как голосовой собеседник в реальном времени, авторы ввели набор специальных токенов управления диалогом. Они сигнализируют:

  • когда начать озвучку;
  • когда временно замолчать и продолжать слушать;
  • когда завершить ответ;
  • как координировать момент «смены говорящего».

LLM обучают реагировать на эти токены с учётом стриминга: она учится не только подбирать слова, но и управлять ритмом диалога.

4. VAD-free: без детектора активности речи

Классические голосовые ассистенты опираются на VAD:

  • VAD решает, что пользователь замолчал,
  • только после этого запускается LLM+TTS.

Это приводит к полудуплексному режиму: сначала говорит человек, потом машина.

DuplexCascade отказывается от VAD и опирается на потоковый текст + управляющие токены.
Решение о начале или окончании ответа принимает LLM в процессе диалога.

5. Бенчмарки Full-DuplexBench и VoiceBench

Авторы тестируют систему на двух наборах:

  • Full-DuplexBench — фокус на качестве очередности в полном дуплексе,
  • VoiceBench — оценка голосового диалога и «интеллекта» собеседника.

DuplexCascade показывает state-of-the-art среди открытых систем голос-голос по:

  • адекватности смены говорящего,
  • сохранению качества ответов LLM.

Числовые метрики в аннотации не приводятся, но авторы прямо заявляют о лучшем результате среди open-source speech-to-speech систем.

Что это значит для вас

Для разработчиков голосовых ассистентов

DuplexCascade полезен, если вы:

  • делаете голосового помощника, который должен перебивать, уточнять и реагировать без длинных пауз;
  • строите диалоговые системы для колл-центров, где важно не «перебивать клиента», но и не заставлять его ждать;
  • разрабатываете роботов и голосовые интерфейсы для устройств, где человек общается «как с человеком», а не по схеме «сказал — подождал — услышал ответ».

Каскад ASR-LLM-TTS даёт возможность использовать мощную текстовую LLM, а не узкую голосовую end-to-end модель. Это важно, если вам нужны сложные сценарии, длинные контексты и нетривиальная логика.

Для исследователей и энтузиастов ИИ

DuplexCascade — хороший ориентир, если вы:

  • изучаете turn-taking и модели диалога в речи;
  • экспериментируете с streaming LLM и хотите управлять временем ответа;
  • сравниваете каскадные и end-to-end голосовые системы.

Работа опубликована на arXiv (arXiv:2603.09180), PDF и исходники доступны для детального разбора архитектуры и методов обучения.

Где система пока слабее

Из аннотации видно и ограничения подхода:

  • Нужен качественный потоковый ASR. Если распознавание даёт много ошибок, LLM будет строить ответ на «кривом» тексте.
  • Каскад чувствителен к задержкам в каждом модуле. Если ASR, LLM или TTS работают медленно, ощущение полного дуплекса пропадает.
  • Управляющие токены требуют дообучения LLM. Нельзя просто взять любую модель и ожидать корректного поведения без настройки.

Доступность

DuplexCascade — исследовательская работа на arXiv.
Это не готовый коммерческий продукт с приложением в магазине. Чтобы использовать подход, придётся:

  • поднимать свою инфраструктуру ASR, LLM и TTS,
  • интегрировать управляющие токены и стриминг.

Ограничений по регионам авторы не вводят, но для доступа к исходникам и коду (если они выложены в репозитории) может понадобиться доступ к GitHub и arXiv. В ряде случаев для этого используют VPN.

Место на рынке

DuplexCascade находится в сегменте open-source систем голос-в-голос с каскадной архитектурой.

По заявлению авторов:

  • на Full-DuplexBench и VoiceBench система даёт state-of-the-art качество:
    • по управлению очередностью в полном дуплексе,
    • при сохранении сильного уровня разговорного интеллекта.

Важный момент: DuplexCascade конкурирует именно с открытыми голос-голос системами, которые тоже используют ASR+LLM+TTS или end-to-end голосовые модели.

Чётких сравнений по скорости, стоимости инференса, длине контекста или сравнению с конкретными коммерческими моделями (например, GPT-4o или Claude 3.5 Sonnet в голосовом режиме) в аннотации нет.
Авторы делают акцент на двух вещах:

  • полный дуплекс без VAD в каскадной архитектуре;
  • лучшие результаты среди открытых решений на профильных бенчмарках.

Для студий, стартапов и лабораторий, которые строят свои голосовые ассистенты и хотят сохранить контроль над стеком (свой ASR, своё TTS, своя LLM), DuplexCascade задаёт референсный дизайн: как совместить мощную текстовую модель и живой голосовой диалог без искусственных пауз.


Читайте также

DuplexCascade: голосовой ИИ, который умеет говорить и слушать одновременно — VogueTech | VogueTech