- Дата публикации
Grok Imagine теперь понимает голос: Speak to Create Images генерирует картинки и видео по устному описанию
Что появилось / что изменилось
В Grok Imagine появилась голосовая функция Speak to Create Images. Теперь для генерации изображения или короткого видео можно не печатать промпт, а просто проговорить его вслух.
Функция работает внутри Grok и приложения X. Пользователь нажимает кнопку записи, описывает сцену голосом, а Grok превращает речь в развернутый текстовый промпт и сразу запускает генерацию в Grok Imagine.
Илон Маск описывает сценарий так: голос особенно удобен для маленьких детей, которые уже хорошо говорят и придумывают сложные сюжеты, но еще не умеют писать детальные текстовые запросы.
Grok Imagine умеет создавать:
- статичные изображения по описанию;
- короткие видео длительностью примерно 10–15 секунд;
- ролики сразу со звуком;
- контент по текстовому запросу или загруженному фото.
Все это теперь доступно не только через клавиатуру, но и через голос.
Как это работает
Под капотом у Speak to Create Images два ключевых шага.
Сначала Grok распознает речь пользователя и переводит ее в текст. Затем тот же Grok перерабатывает этот текст в подробный промпт: уточняет детали сцены, стилистику, действия, а уже после передает результат в Grok Imagine.
Grok Imagine — генератор изображений и видео от xAI, встроенный прямо в Grok. Сервис запустился в 2025 году и работает как связка: текстовый (или голосовой) ввод обрабатывает Grok, а за визуальный результат отвечает Grok Imagine.
Если пользователь загружает фото, Grok Imagine использует его как основу: меняет стиль, добавляет объекты, анимацию или превращает статичную сцену в короткий ролик.
Что это значит для вас
Голос в Grok Imagine полезен в нескольких сценариях:
- Быстрые наброски идей. Проще проговорить: «сделай короткое видео заката над футуристическим городом с неоновыми вывесками и легкой электронной музыкой», чем печатать длинный промпт.
- Работа с детьми. Ребенок может вслух описать персонажа или сцену, а Grok Imagine превратит это в картинку или короткий ролик. Здесь и развлечение, и мягкое обучение визуальному сторителлингу.
- Когда неудобно печатать. В дороге, на диване с планшетом или если вы медленно печатаете на телефоне, голос ускоряет процесс.
- Черновики для креаторов. Дизайнеры, иллюстраторы, видеомейкеры могут голосом накидать несколько вариантов сцен, а потом доработать лучшие из них уже текстом или в графических редакторах.
Где голос пока спорен:
- Точные технические задания. Для рекламных макетов, бренд‑гайдов или строгих требований к композиции по-прежнему надежнее писать промпт вручную и тщательно его шлифовать.
- Шумная среда. В метро или офисе с переговорами рядом распознавание речи может ошибаться. Тогда часть описания потеряется или исказится.
Grok и Grok Imagine интегрированы в соцсеть X. Доступ к продуктам xAI в России может требовать VPN и учетную запись X, привязанную к региону, где сервис официально работает.
Место на рынке
Grok Imagine конкурирует с генераторами изображений и видео от других крупных игроков: OpenAI, Google, Midjourney и сервисами на базе Stable Diffusion. У всех уже есть сильные текстовые генераторы картинок и роликов, но голосовой сценарий пока развивают не так активно.
Связка Grok + Grok Imagine делает упор на то, что пользователь уже находится внутри X: обсуждает новости, смотрит ленту и тут же по голосу создает визуальный контент, не переходя в отдельное приложение.
Отдельный акцент — позиционирование от Илона Маска. Grok подается как «бунтарский» чат‑бот с доступом к данным X в реальном времени, склонностью к юмору и готовностью отвечать на более острые вопросы, чем GPT‑5 или Claude 4. На этом фоне Grok Imagine — визуальное продолжение той же философии: быстрые, иногда дерзкие эксперименты с картинками и видео прямо внутри соцсети.
Минус для части аудитории очевиден: Grok и Grok Imagine жестко привязаны к экосистеме X и xAI. Если вы не пользуетесь X или по работе завязаны на других платформах, встроенный голосовой сценарий может оказаться менее удобным, чем отдельные кроссплатформенные решения.