- Дата публикации
Grok 4.2 в Microsoft Foundry: новый флагман xAI добрался до hyperscaler‑облака
Что нового
xAI довезла линейку Grok 4 до инфраструктуры Microsoft Foundry. Для корпоративных клиентов это значит: доступ к Grok через привычную экосистему Azure и интеграцию в существующие пайплайны без ручной сборки инфраструктуры.
Ключевые обновления в поколении Grok 4 и Grok 4 Heavy:
- Масштабное RL‑обучение на кластере Colossus: 200 000 GPU для обучения с подкреплением на уровне предобучения.
- Рост эффективности обучения: xAI заявляет 6-кратный прирост вычислительной эффективности RL‑тренировки за счёт новых инфраструктурных и алгоритмических решений.
- Расширение обучающей выборки для RL: от математики и кода к множеству доменов с верифицируемой обратной связью.
- Нативная работа с инструментами:
- интерпретатор Python,
- веб‑поиск по всему интернету,
- глубокий поиск по X (ключевые слова, семантический поиск, работа с медиа).
- Состояние дел на бенчмарках (Grok 4 и Grok 4 Heavy):
- Humanity's Last Exam (полный сет, 3 апреля 2025, с Python и интернет‑инструментами):
- Grok 4 Heavy w/ Python + Internet — 44,4
- Grok 4 w/ Python + Internet — 38,6
- Gemini Deep Research — 26,9
- Grok 4 — 25,4
- o3 w/ Python + Internet — 24,9
- Gemini 2.5 Pro — 21,6
- o3 — 21
- Humanity's Last Exam (text‑only subset, Pass@1, с инструментами): 50,7% для Grok 4 Heavy.
- ARC‑AGI V2 (Abstraction and Reasoning):
- Grok 4 — 15,9
- Claude Opus 4 — 8,6
- o3 — 6,5
- Gemini 2.5 Pro — 4,9
- GPQA (science, с Python):
- Grok 4 Heavy w/ Python — 88,4
- Grok 4 — 87,5
- Gemini 2.5 Pro — 86,4
- o3 — 83,3
- Claude Opus 4 — 79,6
- LiveCodeBench (январь–май, competitive coding):
- Grok 4 Heavy w/ Python — 79,4
- Grok 4 w/ Python — 79,3
- Grok 4 — 79
- Gemini 2.5 Pro — 74,2
- o3 — 72
- USAMO 2025 (олимпиадные математические доказательства, с Python):
- Grok 4 Heavy w/ Python — 61,9
- Gemini Deep Think — 49,4
- Grok 4 — 37,5
- Gemini 2.5 Pro — 34,5
- o3 — 21,7
- HMMT 2025 (соревновательная математика):
- Grok 4 Heavy w/ Python — 96,7
- Grok 4 w/ Python — 93,9
- Grok 4 — 90
- Gemini 2.5 Pro — 82,5
- o3 — 77,5
- Claude Opus 4 — 58,3
- AIME’25 (competition math):
- Grok 4 Heavy w/ Python — 100
- Grok 4 w/ Python — 98,8
- o3 w/ Python — 98,4
- Grok 4 — 91,7
- o3 — 88,9
- Gemini 2.5 Pro — 88
- Claude Opus 4 — 75,5
- Humanity's Last Exam (полный сет, 3 апреля 2025, с Python и интернет‑инструментами):
- Параллельное мышление на тесте: Grok 4 Heavy использует параллельный test‑time compute — несколько «агентов» одновременно прорабатывают гипотезы.
- Контекстное окно: до 256 000 токенов в Grok 4 API.
- Мультимодальность: текст + изображение; в Voice Mode — анализ видеопотока с камеры в реальном времени.
- Live search API: встроенный поиск по X, вебу и новостям для ответов с актуальными данными.
- Безопасность: заявлена поддержка SOC 2 Type 2, GDPR, CCPA.
- Интеграция с hyperscaler‑партнёрами: Grok 4 «скоро» появляется у крупных облачных партнёров, сейчас — в Microsoft Foundry.
Отдельный пользовательский продукт — Grok 4 Voice Mode:
- обновлённый голос и более естественные диалоги;
- возможность включить видео, чтобы Grok «видел» сцену и комментировал её в реальном времени;
- собственная модель речи xAI, обученная на их RL‑фреймворке и сжатии речи.
Как это работает
Масштабированное обучение с подкреплением
xAI использует Grok 3 как точку старта: это крупная языковая модель с сильным предобучением на предсказание следующего токена. Поверх этого xAI построила Grok 3 Reasoning, обученный RL‑подходом «думать дольше» и проверять гипотезы.
Во время экспериментов с Grok 3 Reasoning команда увидела, что качество растёт по мере масштабирования RL‑части. Это подтолкнуло xAI к идее: довести обучение с подкреплением до масштабов предобучения.
Для Grok 4 xAI задействовала кластер Colossus на 200 000 GPU. На нём они гоняют RL‑обучение, которое не только слегка донастраивает модель, а фактически работает в том же масштабе, что и базовое предобучение.
Под капотом несколько ключевых вещей:
- 6х рост эффективности вычислений для RL‑тренировок за счёт:
- новой инфраструктуры распределённого обучения,
- алгоритмических улучшений, которые уменьшают количество FLOPs на единицу улучшения качества.
- Новая RL‑обучающая выборка:
- раньше — в основном математика и код,
- сейчас — много доменов с верифицируемым результатом (можно проверить, верен ли ответ).
Результат — «гладкая» кривая улучшения качества по мере роста затраченного compute. xAI подчёркивает, что на RL ушло более чем на порядок больше вычислений, чем раньше.
Нативное использование инструментов
Grok 4 обучен использовать инструменты через RL. Это не просто API‑вызовы, а часть стратегии решения задач.
Инструменты, с которыми Grok 4 работает «из коробки»:
- Интерпретатор Python — для сложных вычислений, кода, симуляций.
- Веб‑поиск — Grok сам формирует поисковые запросы, перебирает результаты, открывает сайты и собирает нужные факты.
- Поиск по X:
- расширенный поиск по ключевым словам,
- семантический поиск по смыслу,
- просмотр медиа (изображения, видео) для уточнения ответа.
Пример из демонстрации: пользователь расплывчато просит «тот вирусный пост про головоломку с ногами». Grok 4:
- Строит гипотезу: это, вероятно, про NYT Connections.
- Формирует несколько запросов в X Search с фильтрами по датам, лайкам и ключевым словам.
- Сужает поиск до конкретного номера Connections (#756) и категории «слова, оканчивающиеся на омонимы частей ноги».
- Находит пост с десятками тысяч лайков, который подходит по описанию, и пересказывает контекст.
Всё это — результат RL‑обучения «как использовать инструменты», а не ручной прошивки правил.
Параллельное мышление в Grok 4 Heavy
Grok 4 Heavy — версия, которая расходует больше вычислений при ответе. Механика:
- при сложном запросе модель запускает несколько «агентов»;
- каждый агент прорабатывает свой сценарий решения;
- итоговый ответ агрегирует выводы агентов.
На интерфейсе это выглядит как несколько процессов с пометкой ~ 10 MIN LEFT и общим статусом Thought for 10 minutes. Такой подход особенно полезен на задачах:
- с длинными математическими доказательствами;
- с многошаговыми исследовательскими запросами;
- с высоким риском логических ошибок.
Grok 4 API
Grok 4 API — это фронтир‑уровень reasoning и мультимодальности для разработчиков:
- 256 000 токенов контекста — можно подавать длинные документы, логи, кодовые базы.
- Мультимодальность — текст + изображение.
- Live search API — встроенный поиск по:
- X,
- вебу,
- новостным источникам.
- Enterprise‑фокус:
- SOC 2 Type 2,
- соответствие GDPR,
- соответствие CCPA.
xAI заявляет, что Grok 4 скоро появится у hyperscaler‑партнёров. Сейчас один из каналов доступа — Microsoft Foundry, где Grok 4.2 можно подключить через экосистему Azure.
Grok 4 Voice Mode
Голосовой режим — отдельный акцент xAI:
- новый спокойный голос и переработанный UX диалога;
- возможность говорить, одновременно показывая сцену с камеры;
- Grok в реальном времени анализирует видео и отвечает голосом.
Модель речи обучена внутри xAI с использованием их RL‑фреймворка и продвинутого сжатия аудио, чтобы удерживать качество при потоковой передаче.
Что это значит для вас
Для разработчиков и ML‑команд
Если вы работаете в экосистеме Microsoft:
- Microsoft Foundry упрощает доступ к Grok 4.2. Не нужно отдельно договариваться с xAI, можно подключать модель через знакомые инструменты Azure.
- Grok 4 API даёт:
- длинный контекст на 256k токенов — удобно для:
- анализа юридических документов,
- работы с репозиториями кода,
- обработки длинных логов и отчётов;
- сильный reasoning для сложных задач в математике, науке и программировании;
- live‑поиск по X и вебу.
- длинный контекст на 256k токенов — удобно для:
Где Grok 4 особенно уместен:
- Исследовательские ассистенты:
- сбор информации по теме из новостей, блогов и X;
- поиск первоисточников и проверка фактов.
- Dev‑инструменты:
- разбор и рефакторинг больших кодовых баз,
- генерация тестов и проверка решений на задачах уровня LiveCodeBench.
- Научные и математические задачи:
- помощь в олимпиадной математике (USAMO, HMMT, AIME);
- работа с научными текстами (GPQA).
Где стоит быть осторожнее:
- Высокорисковые сценарии (медицина, финансы, юриспруденция):
- несмотря на сильные бенчмарки, модель всё равно может ошибаться;
- обязательно добавляйте человеческий контроль и верификацию.
- Долгие и дорогие запросы:
- Grok 4 Heavy использует параллельный test‑time compute и тратит больше ресурсов;
- его стоит включать точечно для задач, где важнее качество, а не скорость и стоимость.
Если вы в России:
- xAI и продукты вокруг Grok официально ориентированы на глобальный рынок.
- Доступ через Microsoft Foundry и hyperscaler‑облака может потребовать:
- корпоративный аккаунт Azure;
- соблюдение санкционных и экспортных ограничений.
- Частным пользователям и небольшим студиям может понадобиться VPN и зарубежная платёжная инфраструктура, если xAI или hyperscaler ограничивают доступ по региону.
Для продуктовых команд и бизнеса
Grok 4 и Grok 4 Heavy интересны, если вы:
- строите агентные системы, где модель:
- сама планирует шаги,
- вызывает инструменты (поиск, код, API),
- принимает решения на основе нескольких источников;
- хотите глубокий анализ данных:
- длинные документы,
- сложные отчёты,
- комбинация текста и изображений.
Примеры задач, где Grok 4 выглядит логичным выбором:
- аналитические ассистенты для финансовых/инвестиционных отделов (с обязательным человеческим контролем);
- системы мониторинга инфополя, которые тянут данные из X и новостей;
- обучающие продукты по математике и программированию с задачами уровня олимпиад и соревнований.
Где Grok 4 может быть избыточен:
- простые чат‑боты поддержки,
- FAQ‑боты на базе вашей базы знаний,
- сценарии, где достаточно локальной модели с меньшими требованиями к инфраструктуре.
Для конечных пользователей
Если у вас есть доступ к потребительской версии Grok:
- Voice Mode подойдёт для:
- hands‑free общения с ассистентом,
- задач «покажи и спроси» — от бытовых до учебных.
- Видеорежим интересен для:
- разбора интерфейсов и экранов,
- обсуждения предметов и сцен, которые вы показываете камерой.
Но важно понимать: это всё ещё языковая модель, а не эксперт‑человек. Ошибки, галлюцинации и культурные искажения возможны.
Место на рынке
xAI напрямую сравнивает Grok 4 и Grok 4 Heavy с флагманами от Google, OpenAI и Anthropic через открытые бенчмарки.
По данным xAI:
- Сложные академические задачи:
- на Humanity's Last Exam (полный сет, с инструментами) Grok 4 Heavy (44,4) и Grok 4 (38,6) опережают Gemini Deep Research (26,9), Gemini 2.5 Pro (21,6) и o3 (21 / 24,9 с инструментами).
- на Humanity's Last Exam (text‑only subset) Grok 4 Heavy достигает 50,7% Pass@1.
- Абстракция и рассуждение (ARC‑AGI V2):
- Grok 4 — 15,9%, почти вдвое выше, чем Claude Opus 4 (8,6), и заметно выше o3 (6,5) и Gemini 2.5 Pro (4,9).
- Научные и математические бенчмарки:
- GPQA: Grok 4 Heavy (88,4) и Grok 4 (87,5) находятся на уровне и выше Gemini 2.5 Pro (86,4), заметно опережая o3 (83,3) и Claude Opus 4 (79,6).
- USAMO 2025: Grok 4 Heavy (61,9) опережает Gemini Deep Think (49,4) и Grok 4 (37,5).
- HMMT 2025 и AIME’25: Grok 4 Heavy и Grok 4 занимают верхние позиции с результатами до 100%.
- Кодинг (LiveCodeBench):
- Grok 4 Heavy w/ Python и Grok 4 w/ Python набирают около 79,3–79,4, выше, чем Gemini 2.5 Pro (74,2) и o3 (72).
На агентном бенчмарке Vending‑Bench Grok 4 показывает:
- $4694,15 среднего net worth и 4569 проданных единиц за 5 прогонов.
- Для сравнения, Claude Opus 4 набирает $2077,41 и 1412 единиц.
- Средний человек — $844,05 и 344 единицы.
Эти цифры подтверждают, что xAI делает ставку на масштабированное RL и агентность, а не только на увеличение параметров модели.
По стоимости запросов и задержке xAI в этом анонсе ничего не раскрывает. Для реальных решений придётся смотреть на тарифы Microsoft Foundry и сравнивать их с ценами на GPT‑5, Claude Opus 4, Gemini 2.5 Pro и другие модели в вашей облачной экосистеме.
Что дальше
xAI явно не собирается останавливаться на Grok 4:
- команда планирует дальше масштабировать RL‑обучение;
- перейти от «контролируемых» доменов с верифицируемыми ответами к более сложным реальным задачам;
- развивать мультимодальность — глубже интегрировать текст, изображение, видео и аудио;
- продолжать работу над скоростью и эффективностью, чтобы удерживать баланс между качеством и затратами.
Для рынка это означает ещё один сильный вариант фронтир‑модели, который теперь доступен через Microsoft Foundry. Для вас — ещё один инструмент в арсенале, если вы строите продукты на стыке сложного reasoning, больших контекстов и живого доступа к данным из X и веба.