Sesame запустила iOS‑приложение с голосовыми ИИ‑собеседниками от основателей Oculus — VogueTech

Что нового

Sesame — стартап основателей Oculus — выпустила превью своего iOS‑приложения с голосовыми ИИ‑собеседниками. Раньше продукт существовал как Research Preview, теперь это отдельное приложение в App Store в 39 странах.

Главные изменения по сравнению с ранним превью:

iOS‑приложение в App Store: полноценный клиент вместо веб‑демо.
Живые голосовые агенты: упор на естественный диалог, а не на «вопрос–ответ» в чате.
Сильно уменьшенная задержка ответа: команда целенаправленно «сбривала миллисекунды» по всей цепочке — от поиска до озвучки.
Параллельный поиск во время разговора: агенты запускают несколько поисковых запросов одновременно и подмешивают результаты прямо в поток речи, могут менять ответ «по ходу фразы».
“Curiosity engine”: режим, заточенный под обучение, саморазвитие и рефлексию, а не только под утилитарные задачи.
Новые персонажи: к Maya и Miles добавились Simone и Charlie, у каждого — свой голос, манера общения и взгляд на мир.
Память по персонажам: у каждого агента — собственная память. Что вы обсуждаете с Miles, остаётся у Miles, и это работает и для голоса, и для текста.
Incognito‑режим: контекст доступен в рамках сессии, но новые данные не сохраняются в память, диалог остаётся эфемерным.
Голос‑first интерфейс: все функции проектировали под голос. Экран показывает результаты поиска, картинки, заметки — но можно общаться вообще без взгляда на дисплей.
Дополнительные инструменты в приложении:
- карточки поиска с картинками для визуализации понятий;
- заметки, чтобы сохранять выводы из разговора;
- текстовый чат, если неудобно говорить вслух;
- «deep dives» — углублённые результаты по интересующей теме.
Модель монетизации на этапе запуска: на этапе iOS‑превью весь функционал бесплатный, но после регистрации возможна короткая очередь.
Android‑версия в пути: команда готовит превью и для Android.

Цифровых бенчмарков (скорость в миллисекундах, размер контекста, стоимость запросов) Sesame не раскрывает, но отдельно подчёркивает фокус на минимальной задержке и актуальности информации через быстрый поиск.

Как это работает

Sesame строит взаимодействие вокруг трёх вещей: разговор, агентность и умные очки. Сейчас запустили iOS‑часть, но архитектура уже заточена под носимую электронику.

Ключевые технические идеи под капотом:

Потоковая генерация с минимальной задержкой
Агенты отвечают не блоками текста, а потоком, как собеседник по телефону. Для этого команда оптимизировала всю цепочку:
- быстрый приём и распознавание речи;
- параллельный поиск и извлечение фактов;
- генерация ответа по мере поступления результатов;
- синтез речи «на лету».
Параллельный поиск и RAG‑подход
Во время разговора агент запускает несколько поисковых запросов одновременно. По мере прихода результатов он:
- встраивает их в ответ прямо в потоке речи;
- может изменить формулировку или позицию посреди предложения, если пришли более релевантные данные;
- использует медленные, но «умные» цепочки рассуждений там, где это не ломает ритм диалога.
По сути, Sesame строит систему поиска + генерация, которая постоянно балансирует между скоростью и точностью: быстрые ответы, но с возможностью «подтянуть» более глубокие данные без пауз и зависаний.
Модель памяти по персонажам
У каждого агента — собственное хранилище контекста. Это даёт несколько эффектов:
- разные персонажи запоминают разные аспекты общения;
- вы можете выстроить «отношения» с конкретным агентом;
- переход между голосом и текстом не сбрасывает личность — это один и тот же собеседник.
В Incognito‑режиме система использует текущий контекст диалога, но новую информацию не записывает в память. После завершения сессии её нельзя восстановить.
Голос‑центричный интерфейс
Все функции — поиск, заметки, deep dives — проектировали как надстройку над голосом:
- вы говорите, агенты отвечают голосом;
- на экране параллельно появляются карточки поиска, изображения, текстовые расшифровки и заметки;
- если вы не смотрите на экран, всё содержимое можно позже найти в приложении.
Многомодальность с упором на визуализацию
Sesame использует карточки с изображениями, чтобы быстрее объяснять новые концепции. Например, если вы обсуждаете архитектурный стиль или устройство прибора, агент может показать картинки в приложении и проговорить ключевые отличия вслух.

Точные модели, размеры контекста и инфраструктуру Sesame не раскрывает, но из описания видно, что архитектура строится вокруг потоковой генерации, параллельного поиска и долгоживущей памяти персонажей.

Что это значит для вас

Для чего это хорошо подходит

Sesame позиционирует iOS‑приложение как «двигатель любопытства» — инструмент для тех, кто любит учиться и размышлять «на ходу».

Реальные сценарии:

Обучение и саморазвитие
Идёте на работу или гуляете — запускаете агента и разбираете тему, которая давно висела «в списке на потом»: от истории искусства до основ статистики. Агент:
- объясняет концепции простым языком;
- подбирает примеры;
- показывает картинки через карточки поиска;
- сохраняет ключевые выводы в заметки.
Мозговой штурм и рефлексия
Можно обсуждать идеи, карьерные планы, творческие проекты. Агенты умеют задавать уточняющие вопросы, помогать структурировать мысли и фиксировать решения в заметках.
Быстрый голосовой поиск с контекстом
Вместо того чтобы формулировать идеальный текстовый запрос, вы просто говорите:
- «Расскажи, что сейчас происходит в…»
- «Объясни разницу между…»
- «Подбери примеры для…»
Агенты запускают параллельные поиски и сразу возвращают информацию голосом, дополняя её карточками и deep dives в приложении.
Режим без экрана
Если вы часто слушаете подкасты или аудиокниги, формат Sesame будет привычен: это как подкаст, который отвечает вам и подстраивается под ваши вопросы.
Комбинация голоса и текста
Когда говорить вслух неудобно (офис, транспорт), можно продолжить диалог текстом. Память и личность агента сохраняются, не нужно «знакомиться заново».

Где лучше не рассчитывать на Sesame

Критичные решения без дополнительной проверки
Как и другие генеративные ИИ, Sesame может ошибаться, обобщать или интерпретировать факты. Для медицины, финансов, юриспруденции и любых решений с высокими ставками лучше использовать специализированные инструменты и всегда перепроверять данные.
Тяжёлые рабочие процессы и интеграции
Sesame сейчас заточена под личное использование и обучение. В тексте нет ни слова про API, плагины, подключение к корпоративным базам или интеграции с Notion, Slack и CRM. Для автоматизации рабочих процессов лучше подойдут продукты вроде GPT‑4o, Claude 3.5 или корпоративных ассистентов.
Оффлайн‑режим
Архитектура Sesame строится на онлайн‑поиске и потоковой генерации. Без стабильного интернета агенты не смогут работать в полном объёме.

Доступность из России

Приложение доступно в App Store в 39 странах, список в анонсе не приводится. Для пользователей из России возможны два ограничения:

региональная недоступность App Store‑страницы;
ограничения по Apple ID и платёжным методам.

Если приложение не открывается в российском App Store, понадобится:

Apple ID другого региона;
при необходимости — VPN для доступа к стору и самим серверам Sesame.

Даже при установке через иностранный аккаунт стоит учитывать риски блокировок и возможные задержки из‑за маршрутизации трафика через VPN.

Место на рынке

Sesame выходит в сегмент, где уже есть крупные игроки с голосовыми и мультимодальными ассистентами: GPT‑4o, Claude 3.5, Google Gemini и другие. Но подход у проекта немного другой.

Что можно зафиксировать по фактам из анонса:

Фокус на живом разговоре, а не на чате
Большинство ассистентов начинали как текстовые чаты и только потом добавляли голос. Sesame проектирует продукт «от голоса» и под носимые устройства. Отсюда — агрессивная оптимизация задержки и работа с ритмом диалога.
Параллельный поиск и динамическая подмешка фактов
Многие крупные модели уже используют retrieval‑подход, но Sesame делает это акцентом: агенты ищут несколько источников одновременно и могут менять ответ в реальном времени, не прерывая речь.
Персонажи с отдельной памятью
У конкурентов обычно есть один «ассистент» с общей историей. У Sesame каждый персонаж — это отдельный канал общения и свой контекст. Для пользователя это ближе к набору «специализированных собеседников».
Мобильный и «безэкранный» сценарий по умолчанию
GPT‑4o, Claude и другие хорошо работают в браузере и приложениях, но часто требуют фокуса на экране. Sesame пытается занять нишу «ИИ‑подкаста», который разговаривает с вами в наушниках, пока вы заняты чем‑то ещё.
Модель доступа
На этапе превью весь функционал iOS‑приложения бесплатный, но с возможной очередью. У крупных конкурентов голосовые функции обычно привязаны к тарифам или лимитам использования.

Прямых сравнений по скорости, качеству ответов, стоимости токена или размеру контекста команда не приводит. Поэтому оценивать Sesame сейчас логичнее не как «замену GPT‑4o», а как отдельный инструмент для голосовых разговоров и обучения в повседневных ситуациях.

Если вам нужен ассистент для кода, сложной аналитики или интеграции в рабочий стек, имеет смысл остаться с привычными инструментами. Если хочется «живого» ИИ‑собеседника в кармане для прогулок, поездок и обучения голосом — iOS‑превью Sesame выглядит как раз про это.