- Дата публикации
Sesame запустила iOS‑приложение с голосовыми ИИ‑собеседниками от основателей Oculus
Что нового
Sesame — стартап основателей Oculus — выпустила превью своего iOS‑приложения с голосовыми ИИ‑собеседниками. Раньше продукт существовал как Research Preview, теперь это отдельное приложение в App Store в 39 странах.
Главные изменения по сравнению с ранним превью:
- iOS‑приложение в App Store: полноценный клиент вместо веб‑демо.
- Живые голосовые агенты: упор на естественный диалог, а не на «вопрос–ответ» в чате.
- Сильно уменьшенная задержка ответа: команда целенаправленно «сбривала миллисекунды» по всей цепочке — от поиска до озвучки.
- Параллельный поиск во время разговора: агенты запускают несколько поисковых запросов одновременно и подмешивают результаты прямо в поток речи, могут менять ответ «по ходу фразы».
- “Curiosity engine”: режим, заточенный под обучение, саморазвитие и рефлексию, а не только под утилитарные задачи.
- Новые персонажи: к Maya и Miles добавились Simone и Charlie, у каждого — свой голос, манера общения и взгляд на мир.
- Память по персонажам: у каждого агента — собственная память. Что вы обсуждаете с Miles, остаётся у Miles, и это работает и для голоса, и для текста.
- Incognito‑режим: контекст доступен в рамках сессии, но новые данные не сохраняются в память, диалог остаётся эфемерным.
- Голос‑first интерфейс: все функции проектировали под голос. Экран показывает результаты поиска, картинки, заметки — но можно общаться вообще без взгляда на дисплей.
- Дополнительные инструменты в приложении:
- карточки поиска с картинками для визуализации понятий;
- заметки, чтобы сохранять выводы из разговора;
- текстовый чат, если неудобно говорить вслух;
- «deep dives» — углублённые результаты по интересующей теме.
- Модель монетизации на этапе запуска: на этапе iOS‑превью весь функционал бесплатный, но после регистрации возможна короткая очередь.
- Android‑версия в пути: команда готовит превью и для Android.
Цифровых бенчмарков (скорость в миллисекундах, размер контекста, стоимость запросов) Sesame не раскрывает, но отдельно подчёркивает фокус на минимальной задержке и актуальности информации через быстрый поиск.
Как это работает
Sesame строит взаимодействие вокруг трёх вещей: разговор, агентность и умные очки. Сейчас запустили iOS‑часть, но архитектура уже заточена под носимую электронику.
Ключевые технические идеи под капотом:
-
Потоковая генерация с минимальной задержкой
Агенты отвечают не блоками текста, а потоком, как собеседник по телефону. Для этого команда оптимизировала всю цепочку:- быстрый приём и распознавание речи;
- параллельный поиск и извлечение фактов;
- генерация ответа по мере поступления результатов;
- синтез речи «на лету».
-
Параллельный поиск и RAG‑подход
Во время разговора агент запускает несколько поисковых запросов одновременно. По мере прихода результатов он:- встраивает их в ответ прямо в потоке речи;
- может изменить формулировку или позицию посреди предложения, если пришли более релевантные данные;
- использует медленные, но «умные» цепочки рассуждений там, где это не ломает ритм диалога.
По сути, Sesame строит систему поиска + генерация, которая постоянно балансирует между скоростью и точностью: быстрые ответы, но с возможностью «подтянуть» более глубокие данные без пауз и зависаний.
-
Модель памяти по персонажам
У каждого агента — собственное хранилище контекста. Это даёт несколько эффектов:- разные персонажи запоминают разные аспекты общения;
- вы можете выстроить «отношения» с конкретным агентом;
- переход между голосом и текстом не сбрасывает личность — это один и тот же собеседник.
В Incognito‑режиме система использует текущий контекст диалога, но новую информацию не записывает в память. После завершения сессии её нельзя восстановить.
-
Голос‑центричный интерфейс
Все функции — поиск, заметки, deep dives — проектировали как надстройку над голосом:- вы говорите, агенты отвечают голосом;
- на экране параллельно появляются карточки поиска, изображения, текстовые расшифровки и заметки;
- если вы не смотрите на экран, всё содержимое можно позже найти в приложении.
-
Многомодальность с упором на визуализацию
Sesame использует карточки с изображениями, чтобы быстрее объяснять новые концепции. Например, если вы обсуждаете архитектурный стиль или устройство прибора, агент может показать картинки в приложении и проговорить ключевые отличия вслух.
Точные модели, размеры контекста и инфраструктуру Sesame не раскрывает, но из описания видно, что архитектура строится вокруг потоковой генерации, параллельного поиска и долгоживущей памяти персонажей.
Что это значит для вас
Для чего это хорошо подходит
Sesame позиционирует iOS‑приложение как «двигатель любопытства» — инструмент для тех, кто любит учиться и размышлять «на ходу».
Реальные сценарии:
-
Обучение и саморазвитие
Идёте на работу или гуляете — запускаете агента и разбираете тему, которая давно висела «в списке на потом»: от истории искусства до основ статистики. Агент:- объясняет концепции простым языком;
- подбирает примеры;
- показывает картинки через карточки поиска;
- сохраняет ключевые выводы в заметки.
-
Мозговой штурм и рефлексия
Можно обсуждать идеи, карьерные планы, творческие проекты. Агенты умеют задавать уточняющие вопросы, помогать структурировать мысли и фиксировать решения в заметках. -
Быстрый голосовой поиск с контекстом
Вместо того чтобы формулировать идеальный текстовый запрос, вы просто говорите:- «Расскажи, что сейчас происходит в…»
- «Объясни разницу между…»
- «Подбери примеры для…»
Агенты запускают параллельные поиски и сразу возвращают информацию голосом, дополняя её карточками и deep dives в приложении.
-
Режим без экрана
Если вы часто слушаете подкасты или аудиокниги, формат Sesame будет привычен: это как подкаст, который отвечает вам и подстраивается под ваши вопросы. -
Комбинация голоса и текста
Когда говорить вслух неудобно (офис, транспорт), можно продолжить диалог текстом. Память и личность агента сохраняются, не нужно «знакомиться заново».
Где лучше не рассчитывать на Sesame
-
Критичные решения без дополнительной проверки
Как и другие генеративные ИИ, Sesame может ошибаться, обобщать или интерпретировать факты. Для медицины, финансов, юриспруденции и любых решений с высокими ставками лучше использовать специализированные инструменты и всегда перепроверять данные. -
Тяжёлые рабочие процессы и интеграции
Sesame сейчас заточена под личное использование и обучение. В тексте нет ни слова про API, плагины, подключение к корпоративным базам или интеграции с Notion, Slack и CRM. Для автоматизации рабочих процессов лучше подойдут продукты вроде GPT‑4o, Claude 3.5 или корпоративных ассистентов. -
Оффлайн‑режим
Архитектура Sesame строится на онлайн‑поиске и потоковой генерации. Без стабильного интернета агенты не смогут работать в полном объёме.
Доступность из России
Приложение доступно в App Store в 39 странах, список в анонсе не приводится. Для пользователей из России возможны два ограничения:
- региональная недоступность App Store‑страницы;
- ограничения по Apple ID и платёжным методам.
Если приложение не открывается в российском App Store, понадобится:
- Apple ID другого региона;
- при необходимости — VPN для доступа к стору и самим серверам Sesame.
Даже при установке через иностранный аккаунт стоит учитывать риски блокировок и возможные задержки из‑за маршрутизации трафика через VPN.
Место на рынке
Sesame выходит в сегмент, где уже есть крупные игроки с голосовыми и мультимодальными ассистентами: GPT‑4o, Claude 3.5, Google Gemini и другие. Но подход у проекта немного другой.
Что можно зафиксировать по фактам из анонса:
-
Фокус на живом разговоре, а не на чате
Большинство ассистентов начинали как текстовые чаты и только потом добавляли голос. Sesame проектирует продукт «от голоса» и под носимые устройства. Отсюда — агрессивная оптимизация задержки и работа с ритмом диалога. -
Параллельный поиск и динамическая подмешка фактов
Многие крупные модели уже используют retrieval‑подход, но Sesame делает это акцентом: агенты ищут несколько источников одновременно и могут менять ответ в реальном времени, не прерывая речь. -
Персонажи с отдельной памятью
У конкурентов обычно есть один «ассистент» с общей историей. У Sesame каждый персонаж — это отдельный канал общения и свой контекст. Для пользователя это ближе к набору «специализированных собеседников». -
Мобильный и «безэкранный» сценарий по умолчанию
GPT‑4o, Claude и другие хорошо работают в браузере и приложениях, но часто требуют фокуса на экране. Sesame пытается занять нишу «ИИ‑подкаста», который разговаривает с вами в наушниках, пока вы заняты чем‑то ещё. -
Модель доступа
На этапе превью весь функционал iOS‑приложения бесплатный, но с возможной очередью. У крупных конкурентов голосовые функции обычно привязаны к тарифам или лимитам использования.
Прямых сравнений по скорости, качеству ответов, стоимости токена или размеру контекста команда не приводит. Поэтому оценивать Sesame сейчас логичнее не как «замену GPT‑4o», а как отдельный инструмент для голосовых разговоров и обучения в повседневных ситуациях.
Если вам нужен ассистент для кода, сложной аналитики или интеграции в рабочий стек, имеет смысл остаться с привычными инструментами. Если хочется «живого» ИИ‑собеседника в кармане для прогулок, поездок и обучения голосом — iOS‑превью Sesame выглядит как раз про это.