Дата публикации
ai_products

Sesame запустила iOS‑приложение с голосовыми ИИ‑собеседниками от основателей Oculus

Что нового

Sesame — стартап основателей Oculus — выпустила превью своего iOS‑приложения с голосовыми ИИ‑собеседниками. Раньше продукт существовал как Research Preview, теперь это отдельное приложение в App Store в 39 странах.

Главные изменения по сравнению с ранним превью:

  • iOS‑приложение в App Store: полноценный клиент вместо веб‑демо.
  • Живые голосовые агенты: упор на естественный диалог, а не на «вопрос–ответ» в чате.
  • Сильно уменьшенная задержка ответа: команда целенаправленно «сбривала миллисекунды» по всей цепочке — от поиска до озвучки.
  • Параллельный поиск во время разговора: агенты запускают несколько поисковых запросов одновременно и подмешивают результаты прямо в поток речи, могут менять ответ «по ходу фразы».
  • “Curiosity engine”: режим, заточенный под обучение, саморазвитие и рефлексию, а не только под утилитарные задачи.
  • Новые персонажи: к Maya и Miles добавились Simone и Charlie, у каждого — свой голос, манера общения и взгляд на мир.
  • Память по персонажам: у каждого агента — собственная память. Что вы обсуждаете с Miles, остаётся у Miles, и это работает и для голоса, и для текста.
  • Incognito‑режим: контекст доступен в рамках сессии, но новые данные не сохраняются в память, диалог остаётся эфемерным.
  • Голос‑first интерфейс: все функции проектировали под голос. Экран показывает результаты поиска, картинки, заметки — но можно общаться вообще без взгляда на дисплей.
  • Дополнительные инструменты в приложении:
    • карточки поиска с картинками для визуализации понятий;
    • заметки, чтобы сохранять выводы из разговора;
    • текстовый чат, если неудобно говорить вслух;
    • «deep dives» — углублённые результаты по интересующей теме.
  • Модель монетизации на этапе запуска: на этапе iOS‑превью весь функционал бесплатный, но после регистрации возможна короткая очередь.
  • Android‑версия в пути: команда готовит превью и для Android.

Цифровых бенчмарков (скорость в миллисекундах, размер контекста, стоимость запросов) Sesame не раскрывает, но отдельно подчёркивает фокус на минимальной задержке и актуальности информации через быстрый поиск.

Как это работает

Sesame строит взаимодействие вокруг трёх вещей: разговор, агентность и умные очки. Сейчас запустили iOS‑часть, но архитектура уже заточена под носимую электронику.

Ключевые технические идеи под капотом:

  1. Потоковая генерация с минимальной задержкой
    Агенты отвечают не блоками текста, а потоком, как собеседник по телефону. Для этого команда оптимизировала всю цепочку:

    • быстрый приём и распознавание речи;
    • параллельный поиск и извлечение фактов;
    • генерация ответа по мере поступления результатов;
    • синтез речи «на лету».
  2. Параллельный поиск и RAG‑подход
    Во время разговора агент запускает несколько поисковых запросов одновременно. По мере прихода результатов он:

    • встраивает их в ответ прямо в потоке речи;
    • может изменить формулировку или позицию посреди предложения, если пришли более релевантные данные;
    • использует медленные, но «умные» цепочки рассуждений там, где это не ломает ритм диалога.

    По сути, Sesame строит систему поиска + генерация, которая постоянно балансирует между скоростью и точностью: быстрые ответы, но с возможностью «подтянуть» более глубокие данные без пауз и зависаний.

  3. Модель памяти по персонажам
    У каждого агента — собственное хранилище контекста. Это даёт несколько эффектов:

    • разные персонажи запоминают разные аспекты общения;
    • вы можете выстроить «отношения» с конкретным агентом;
    • переход между голосом и текстом не сбрасывает личность — это один и тот же собеседник.

    В Incognito‑режиме система использует текущий контекст диалога, но новую информацию не записывает в память. После завершения сессии её нельзя восстановить.

  4. Голос‑центричный интерфейс
    Все функции — поиск, заметки, deep dives — проектировали как надстройку над голосом:

    • вы говорите, агенты отвечают голосом;
    • на экране параллельно появляются карточки поиска, изображения, текстовые расшифровки и заметки;
    • если вы не смотрите на экран, всё содержимое можно позже найти в приложении.
  5. Многомодальность с упором на визуализацию
    Sesame использует карточки с изображениями, чтобы быстрее объяснять новые концепции. Например, если вы обсуждаете архитектурный стиль или устройство прибора, агент может показать картинки в приложении и проговорить ключевые отличия вслух.

Точные модели, размеры контекста и инфраструктуру Sesame не раскрывает, но из описания видно, что архитектура строится вокруг потоковой генерации, параллельного поиска и долгоживущей памяти персонажей.

Что это значит для вас

Для чего это хорошо подходит

Sesame позиционирует iOS‑приложение как «двигатель любопытства» — инструмент для тех, кто любит учиться и размышлять «на ходу».

Реальные сценарии:

  • Обучение и саморазвитие
    Идёте на работу или гуляете — запускаете агента и разбираете тему, которая давно висела «в списке на потом»: от истории искусства до основ статистики. Агент:

    • объясняет концепции простым языком;
    • подбирает примеры;
    • показывает картинки через карточки поиска;
    • сохраняет ключевые выводы в заметки.
  • Мозговой штурм и рефлексия
    Можно обсуждать идеи, карьерные планы, творческие проекты. Агенты умеют задавать уточняющие вопросы, помогать структурировать мысли и фиксировать решения в заметках.

  • Быстрый голосовой поиск с контекстом
    Вместо того чтобы формулировать идеальный текстовый запрос, вы просто говорите:

    • «Расскажи, что сейчас происходит в…»
    • «Объясни разницу между…»
    • «Подбери примеры для…»

    Агенты запускают параллельные поиски и сразу возвращают информацию голосом, дополняя её карточками и deep dives в приложении.

  • Режим без экрана
    Если вы часто слушаете подкасты или аудиокниги, формат Sesame будет привычен: это как подкаст, который отвечает вам и подстраивается под ваши вопросы.

  • Комбинация голоса и текста
    Когда говорить вслух неудобно (офис, транспорт), можно продолжить диалог текстом. Память и личность агента сохраняются, не нужно «знакомиться заново».

Где лучше не рассчитывать на Sesame

  • Критичные решения без дополнительной проверки
    Как и другие генеративные ИИ, Sesame может ошибаться, обобщать или интерпретировать факты. Для медицины, финансов, юриспруденции и любых решений с высокими ставками лучше использовать специализированные инструменты и всегда перепроверять данные.

  • Тяжёлые рабочие процессы и интеграции
    Sesame сейчас заточена под личное использование и обучение. В тексте нет ни слова про API, плагины, подключение к корпоративным базам или интеграции с Notion, Slack и CRM. Для автоматизации рабочих процессов лучше подойдут продукты вроде GPT‑4o, Claude 3.5 или корпоративных ассистентов.

  • Оффлайн‑режим
    Архитектура Sesame строится на онлайн‑поиске и потоковой генерации. Без стабильного интернета агенты не смогут работать в полном объёме.

Доступность из России

Приложение доступно в App Store в 39 странах, список в анонсе не приводится. Для пользователей из России возможны два ограничения:

  • региональная недоступность App Store‑страницы;
  • ограничения по Apple ID и платёжным методам.

Если приложение не открывается в российском App Store, понадобится:

  • Apple ID другого региона;
  • при необходимости — VPN для доступа к стору и самим серверам Sesame.

Даже при установке через иностранный аккаунт стоит учитывать риски блокировок и возможные задержки из‑за маршрутизации трафика через VPN.

Место на рынке

Sesame выходит в сегмент, где уже есть крупные игроки с голосовыми и мультимодальными ассистентами: GPT‑4o, Claude 3.5, Google Gemini и другие. Но подход у проекта немного другой.

Что можно зафиксировать по фактам из анонса:

  • Фокус на живом разговоре, а не на чате
    Большинство ассистентов начинали как текстовые чаты и только потом добавляли голос. Sesame проектирует продукт «от голоса» и под носимые устройства. Отсюда — агрессивная оптимизация задержки и работа с ритмом диалога.

  • Параллельный поиск и динамическая подмешка фактов
    Многие крупные модели уже используют retrieval‑подход, но Sesame делает это акцентом: агенты ищут несколько источников одновременно и могут менять ответ в реальном времени, не прерывая речь.

  • Персонажи с отдельной памятью
    У конкурентов обычно есть один «ассистент» с общей историей. У Sesame каждый персонаж — это отдельный канал общения и свой контекст. Для пользователя это ближе к набору «специализированных собеседников».

  • Мобильный и «безэкранный» сценарий по умолчанию
    GPT‑4o, Claude и другие хорошо работают в браузере и приложениях, но часто требуют фокуса на экране. Sesame пытается занять нишу «ИИ‑подкаста», который разговаривает с вами в наушниках, пока вы заняты чем‑то ещё.

  • Модель доступа
    На этапе превью весь функционал iOS‑приложения бесплатный, но с возможной очередью. У крупных конкурентов голосовые функции обычно привязаны к тарифам или лимитам использования.

Прямых сравнений по скорости, качеству ответов, стоимости токена или размеру контекста команда не приводит. Поэтому оценивать Sesame сейчас логичнее не как «замену GPT‑4o», а как отдельный инструмент для голосовых разговоров и обучения в повседневных ситуациях.

Если вам нужен ассистент для кода, сложной аналитики или интеграции в рабочий стек, имеет смысл остаться с привычными инструментами. Если хочется «живого» ИИ‑собеседника в кармане для прогулок, поездок и обучения голосом — iOS‑превью Sesame выглядит как раз про это.


Читайте также