Дата публикации
ai_products

Grok Imagine теперь понимает голос: Speak to Create Images генерирует картинки и видео по устному описанию

Что появилось / что изменилось

В Grok Imagine появилась голосовая функция Speak to Create Images. Теперь для генерации изображения или короткого видео можно не печатать промпт, а просто проговорить его вслух.

Функция работает внутри Grok и приложения X. Пользователь нажимает кнопку записи, описывает сцену голосом, а Grok превращает речь в развернутый текстовый промпт и сразу запускает генерацию в Grok Imagine.

Илон Маск описывает сценарий так: голос особенно удобен для маленьких детей, которые уже хорошо говорят и придумывают сложные сюжеты, но еще не умеют писать детальные текстовые запросы.

Grok Imagine умеет создавать:

  • статичные изображения по описанию;
  • короткие видео длительностью примерно 10–15 секунд;
  • ролики сразу со звуком;
  • контент по текстовому запросу или загруженному фото.

Все это теперь доступно не только через клавиатуру, но и через голос.

Как это работает

Под капотом у Speak to Create Images два ключевых шага.

Сначала Grok распознает речь пользователя и переводит ее в текст. Затем тот же Grok перерабатывает этот текст в подробный промпт: уточняет детали сцены, стилистику, действия, а уже после передает результат в Grok Imagine.

Grok Imagine — генератор изображений и видео от xAI, встроенный прямо в Grok. Сервис запустился в 2025 году и работает как связка: текстовый (или голосовой) ввод обрабатывает Grok, а за визуальный результат отвечает Grok Imagine.

Если пользователь загружает фото, Grok Imagine использует его как основу: меняет стиль, добавляет объекты, анимацию или превращает статичную сцену в короткий ролик.

Что это значит для вас

Голос в Grok Imagine полезен в нескольких сценариях:

  • Быстрые наброски идей. Проще проговорить: «сделай короткое видео заката над футуристическим городом с неоновыми вывесками и легкой электронной музыкой», чем печатать длинный промпт.
  • Работа с детьми. Ребенок может вслух описать персонажа или сцену, а Grok Imagine превратит это в картинку или короткий ролик. Здесь и развлечение, и мягкое обучение визуальному сторителлингу.
  • Когда неудобно печатать. В дороге, на диване с планшетом или если вы медленно печатаете на телефоне, голос ускоряет процесс.
  • Черновики для креаторов. Дизайнеры, иллюстраторы, видеомейкеры могут голосом накидать несколько вариантов сцен, а потом доработать лучшие из них уже текстом или в графических редакторах.

Где голос пока спорен:

  • Точные технические задания. Для рекламных макетов, бренд‑гайдов или строгих требований к композиции по-прежнему надежнее писать промпт вручную и тщательно его шлифовать.
  • Шумная среда. В метро или офисе с переговорами рядом распознавание речи может ошибаться. Тогда часть описания потеряется или исказится.

Grok и Grok Imagine интегрированы в соцсеть X. Доступ к продуктам xAI в России может требовать VPN и учетную запись X, привязанную к региону, где сервис официально работает.

Место на рынке

Grok Imagine конкурирует с генераторами изображений и видео от других крупных игроков: OpenAI, Google, Midjourney и сервисами на базе Stable Diffusion. У всех уже есть сильные текстовые генераторы картинок и роликов, но голосовой сценарий пока развивают не так активно.

Связка Grok + Grok Imagine делает упор на то, что пользователь уже находится внутри X: обсуждает новости, смотрит ленту и тут же по голосу создает визуальный контент, не переходя в отдельное приложение.

Отдельный акцент — позиционирование от Илона Маска. Grok подается как «бунтарский» чат‑бот с доступом к данным X в реальном времени, склонностью к юмору и готовностью отвечать на более острые вопросы, чем GPT‑5 или Claude 4. На этом фоне Grok Imagine — визуальное продолжение той же философии: быстрые, иногда дерзкие эксперименты с картинками и видео прямо внутри соцсети.

Минус для части аудитории очевиден: Grok и Grok Imagine жестко привязаны к экосистеме X и xAI. Если вы не пользуетесь X или по работе завязаны на других платформах, встроенный голосовой сценарий может оказаться менее удобным, чем отдельные кроссплатформенные решения.


Читайте также