Grok 4.2 в Microsoft Foundry: новый флагман xAI добрался до hyperscaler‑облака — VogueTech

Что нового

xAI довезла линейку Grok 4 до инфраструктуры Microsoft Foundry. Для корпоративных клиентов это значит: доступ к Grok через привычную экосистему Azure и интеграцию в существующие пайплайны без ручной сборки инфраструктуры.

Ключевые обновления в поколении Grok 4 и Grok 4 Heavy:

Масштабное RL‑обучение на кластере Colossus: 200 000 GPU для обучения с подкреплением на уровне предобучения.
Рост эффективности обучения: xAI заявляет 6-кратный прирост вычислительной эффективности RL‑тренировки за счёт новых инфраструктурных и алгоритмических решений.
Расширение обучающей выборки для RL: от математики и кода к множеству доменов с верифицируемой обратной связью.
Нативная работа с инструментами:
- интерпретатор Python,
- веб‑поиск по всему интернету,
- глубокий поиск по X (ключевые слова, семантический поиск, работа с медиа).
Состояние дел на бенчмарках (Grok 4 и Grok 4 Heavy):
- Humanity's Last Exam (полный сет, 3 апреля 2025, с Python и интернет‑инструментами):
  - Grok 4 Heavy w/ Python + Internet — 44,4
  - Grok 4 w/ Python + Internet — 38,6
  - Gemini Deep Research — 26,9
  - Grok 4 — 25,4
  - o3 w/ Python + Internet — 24,9
  - Gemini 2.5 Pro — 21,6
  - o3 — 21
- Humanity's Last Exam (text‑only subset, Pass@1, с инструментами): 50,7% для Grok 4 Heavy.
- ARC‑AGI V2 (Abstraction and Reasoning):
  - Grok 4 — 15,9
  - Claude Opus 4 — 8,6
  - o3 — 6,5
  - Gemini 2.5 Pro — 4,9
- GPQA (science, с Python):
  - Grok 4 Heavy w/ Python — 88,4
  - Grok 4 — 87,5
  - Gemini 2.5 Pro — 86,4
  - o3 — 83,3
  - Claude Opus 4 — 79,6
- LiveCodeBench (январь–май, competitive coding):
  - Grok 4 Heavy w/ Python — 79,4
  - Grok 4 w/ Python — 79,3
  - Grok 4 — 79
  - Gemini 2.5 Pro — 74,2
  - o3 — 72
- USAMO 2025 (олимпиадные математические доказательства, с Python):
  - Grok 4 Heavy w/ Python — 61,9
  - Gemini Deep Think — 49,4
  - Grok 4 — 37,5
  - Gemini 2.5 Pro — 34,5
  - o3 — 21,7
- HMMT 2025 (соревновательная математика):
  - Grok 4 Heavy w/ Python — 96,7
  - Grok 4 w/ Python — 93,9
  - Grok 4 — 90
  - Gemini 2.5 Pro — 82,5
  - o3 — 77,5
  - Claude Opus 4 — 58,3
- AIME’25 (competition math):
  - Grok 4 Heavy w/ Python — 100
  - Grok 4 w/ Python — 98,8
  - o3 w/ Python — 98,4
  - Grok 4 — 91,7
  - o3 — 88,9
  - Gemini 2.5 Pro — 88
  - Claude Opus 4 — 75,5
Параллельное мышление на тесте: Grok 4 Heavy использует параллельный test‑time compute — несколько «агентов» одновременно прорабатывают гипотезы.
Контекстное окно: до 256 000 токенов в Grok 4 API.
Мультимодальность: текст + изображение; в Voice Mode — анализ видеопотока с камеры в реальном времени.
Live search API: встроенный поиск по X, вебу и новостям для ответов с актуальными данными.
Безопасность: заявлена поддержка SOC 2 Type 2, GDPR, CCPA.
Интеграция с hyperscaler‑партнёрами: Grok 4 «скоро» появляется у крупных облачных партнёров, сейчас — в Microsoft Foundry.

Отдельный пользовательский продукт — Grok 4 Voice Mode:

обновлённый голос и более естественные диалоги;
возможность включить видео, чтобы Grok «видел» сцену и комментировал её в реальном времени;
собственная модель речи xAI, обученная на их RL‑фреймворке и сжатии речи.

Как это работает

Масштабированное обучение с подкреплением

xAI использует Grok 3 как точку старта: это крупная языковая модель с сильным предобучением на предсказание следующего токена. Поверх этого xAI построила Grok 3 Reasoning, обученный RL‑подходом «думать дольше» и проверять гипотезы.

Во время экспериментов с Grok 3 Reasoning команда увидела, что качество растёт по мере масштабирования RL‑части. Это подтолкнуло xAI к идее: довести обучение с подкреплением до масштабов предобучения.

Для Grok 4 xAI задействовала кластер Colossus на 200 000 GPU. На нём они гоняют RL‑обучение, которое не только слегка донастраивает модель, а фактически работает в том же масштабе, что и базовое предобучение.

Под капотом несколько ключевых вещей:

6х рост эффективности вычислений для RL‑тренировок за счёт:
- новой инфраструктуры распределённого обучения,
- алгоритмических улучшений, которые уменьшают количество FLOPs на единицу улучшения качества.
Новая RL‑обучающая выборка:
- раньше — в основном математика и код,
- сейчас — много доменов с верифицируемым результатом (можно проверить, верен ли ответ).

Результат — «гладкая» кривая улучшения качества по мере роста затраченного compute. xAI подчёркивает, что на RL ушло более чем на порядок больше вычислений, чем раньше.

Нативное использование инструментов

Grok 4 обучен использовать инструменты через RL. Это не просто API‑вызовы, а часть стратегии решения задач.

Инструменты, с которыми Grok 4 работает «из коробки»:

Интерпретатор Python — для сложных вычислений, кода, симуляций.
Веб‑поиск — Grok сам формирует поисковые запросы, перебирает результаты, открывает сайты и собирает нужные факты.
Поиск по X:
- расширенный поиск по ключевым словам,
- семантический поиск по смыслу,
- просмотр медиа (изображения, видео) для уточнения ответа.

Пример из демонстрации: пользователь расплывчато просит «тот вирусный пост про головоломку с ногами». Grok 4:

Строит гипотезу: это, вероятно, про NYT Connections.
Формирует несколько запросов в X Search с фильтрами по датам, лайкам и ключевым словам.
Сужает поиск до конкретного номера Connections (#756) и категории «слова, оканчивающиеся на омонимы частей ноги».
Находит пост с десятками тысяч лайков, который подходит по описанию, и пересказывает контекст.

Всё это — результат RL‑обучения «как использовать инструменты», а не ручной прошивки правил.

Параллельное мышление в Grok 4 Heavy

Grok 4 Heavy — версия, которая расходует больше вычислений при ответе. Механика:

при сложном запросе модель запускает несколько «агентов»;
каждый агент прорабатывает свой сценарий решения;
итоговый ответ агрегирует выводы агентов.

На интерфейсе это выглядит как несколько процессов с пометкой ~ 10 MIN LEFT и общим статусом Thought for 10 minutes. Такой подход особенно полезен на задачах:

с длинными математическими доказательствами;
с многошаговыми исследовательскими запросами;
с высоким риском логических ошибок.

Grok 4 API

Grok 4 API — это фронтир‑уровень reasoning и мультимодальности для разработчиков:

256 000 токенов контекста — можно подавать длинные документы, логи, кодовые базы.
Мультимодальность — текст + изображение.
Live search API — встроенный поиск по:
- X,
- вебу,
- новостным источникам.
Enterprise‑фокус:
- SOC 2 Type 2,
- соответствие GDPR,
- соответствие CCPA.

xAI заявляет, что Grok 4 скоро появится у hyperscaler‑партнёров. Сейчас один из каналов доступа — Microsoft Foundry, где Grok 4.2 можно подключить через экосистему Azure.

Grok 4 Voice Mode

Голосовой режим — отдельный акцент xAI:

новый спокойный голос и переработанный UX диалога;
возможность говорить, одновременно показывая сцену с камеры;
Grok в реальном времени анализирует видео и отвечает голосом.

Модель речи обучена внутри xAI с использованием их RL‑фреймворка и продвинутого сжатия аудио, чтобы удерживать качество при потоковой передаче.

Что это значит для вас

Для разработчиков и ML‑команд

Если вы работаете в экосистеме Microsoft:

Microsoft Foundry упрощает доступ к Grok 4.2. Не нужно отдельно договариваться с xAI, можно подключать модель через знакомые инструменты Azure.
Grok 4 API даёт:
- длинный контекст на 256k токенов — удобно для:
  - анализа юридических документов,
  - работы с репозиториями кода,
  - обработки длинных логов и отчётов;
- сильный reasoning для сложных задач в математике, науке и программировании;
- live‑поиск по X и вебу.

Где Grok 4 особенно уместен:

Исследовательские ассистенты:
- сбор информации по теме из новостей, блогов и X;
- поиск первоисточников и проверка фактов.
Dev‑инструменты:
- разбор и рефакторинг больших кодовых баз,
- генерация тестов и проверка решений на задачах уровня LiveCodeBench.
Научные и математические задачи:
- помощь в олимпиадной математике (USAMO, HMMT, AIME);
- работа с научными текстами (GPQA).

Где стоит быть осторожнее:

Высокорисковые сценарии (медицина, финансы, юриспруденция):
- несмотря на сильные бенчмарки, модель всё равно может ошибаться;
- обязательно добавляйте человеческий контроль и верификацию.
Долгие и дорогие запросы:
- Grok 4 Heavy использует параллельный test‑time compute и тратит больше ресурсов;
- его стоит включать точечно для задач, где важнее качество, а не скорость и стоимость.

Если вы в России:

xAI и продукты вокруг Grok официально ориентированы на глобальный рынок.
Доступ через Microsoft Foundry и hyperscaler‑облака может потребовать:
- корпоративный аккаунт Azure;
- соблюдение санкционных и экспортных ограничений.
Частным пользователям и небольшим студиям может понадобиться VPN и зарубежная платёжная инфраструктура, если xAI или hyperscaler ограничивают доступ по региону.

Для продуктовых команд и бизнеса

Grok 4 и Grok 4 Heavy интересны, если вы:

строите агентные системы, где модель:
- сама планирует шаги,
- вызывает инструменты (поиск, код, API),
- принимает решения на основе нескольких источников;
хотите глубокий анализ данных:
- длинные документы,
- сложные отчёты,
- комбинация текста и изображений.

Примеры задач, где Grok 4 выглядит логичным выбором:

аналитические ассистенты для финансовых/инвестиционных отделов (с обязательным человеческим контролем);
системы мониторинга инфополя, которые тянут данные из X и новостей;
обучающие продукты по математике и программированию с задачами уровня олимпиад и соревнований.

Где Grok 4 может быть избыточен:

простые чат‑боты поддержки,
FAQ‑боты на базе вашей базы знаний,
сценарии, где достаточно локальной модели с меньшими требованиями к инфраструктуре.

Для конечных пользователей

Если у вас есть доступ к потребительской версии Grok:

Voice Mode подойдёт для:
- hands‑free общения с ассистентом,
- задач «покажи и спроси» — от бытовых до учебных.
Видеорежим интересен для:
- разбора интерфейсов и экранов,
- обсуждения предметов и сцен, которые вы показываете камерой.

Но важно понимать: это всё ещё языковая модель, а не эксперт‑человек. Ошибки, галлюцинации и культурные искажения возможны.

Место на рынке

xAI напрямую сравнивает Grok 4 и Grok 4 Heavy с флагманами от Google, OpenAI и Anthropic через открытые бенчмарки.

По данным xAI:

Сложные академические задачи:
- на Humanity's Last Exam (полный сет, с инструментами) Grok 4 Heavy (44,4) и Grok 4 (38,6) опережают Gemini Deep Research (26,9), Gemini 2.5 Pro (21,6) и o3 (21 / 24,9 с инструментами).
- на Humanity's Last Exam (text‑only subset) Grok 4 Heavy достигает 50,7% Pass@1.
Абстракция и рассуждение (ARC‑AGI V2):
- Grok 4 — 15,9%, почти вдвое выше, чем Claude Opus 4 (8,6), и заметно выше o3 (6,5) и Gemini 2.5 Pro (4,9).
Научные и математические бенчмарки:
- GPQA: Grok 4 Heavy (88,4) и Grok 4 (87,5) находятся на уровне и выше Gemini 2.5 Pro (86,4), заметно опережая o3 (83,3) и Claude Opus 4 (79,6).
- USAMO 2025: Grok 4 Heavy (61,9) опережает Gemini Deep Think (49,4) и Grok 4 (37,5).
- HMMT 2025 и AIME’25: Grok 4 Heavy и Grok 4 занимают верхние позиции с результатами до 100%.
Кодинг (LiveCodeBench):
- Grok 4 Heavy w/ Python и Grok 4 w/ Python набирают около 79,3–79,4, выше, чем Gemini 2.5 Pro (74,2) и o3 (72).

На агентном бенчмарке Vending‑Bench Grok 4 показывает:

$4694,15 среднего net worth и 4569 проданных единиц за 5 прогонов.
Для сравнения, Claude Opus 4 набирает $2077,41 и 1412 единиц.
Средний человек — $844,05 и 344 единицы.

Эти цифры подтверждают, что xAI делает ставку на масштабированное RL и агентность, а не только на увеличение параметров модели.

По стоимости запросов и задержке xAI в этом анонсе ничего не раскрывает. Для реальных решений придётся смотреть на тарифы Microsoft Foundry и сравнивать их с ценами на GPT‑5, Claude Opus 4, Gemini 2.5 Pro и другие модели в вашей облачной экосистеме.

Что дальше

xAI явно не собирается останавливаться на Grok 4:

команда планирует дальше масштабировать RL‑обучение;
перейти от «контролируемых» доменов с верифицируемыми ответами к более сложным реальным задачам;
развивать мультимодальность — глубже интегрировать текст, изображение, видео и аудио;
продолжать работу над скоростью и эффективностью, чтобы удерживать баланс между качеством и затратами.

Для рынка это означает ещё один сильный вариант фронтир‑модели, который теперь доступен через Microsoft Foundry. Для вас — ещё один инструмент в арсенале, если вы строите продукты на стыке сложного reasoning, больших контекстов и живого доступа к данным из X и веба.