Дата публикации
ai_products

Grok 4.2 в Microsoft Foundry: новый флагман xAI добрался до hyperscaler‑облака

Что нового

xAI довезла линейку Grok 4 до инфраструктуры Microsoft Foundry. Для корпоративных клиентов это значит: доступ к Grok через привычную экосистему Azure и интеграцию в существующие пайплайны без ручной сборки инфраструктуры.

Ключевые обновления в поколении Grok 4 и Grok 4 Heavy:

  • Масштабное RL‑обучение на кластере Colossus: 200 000 GPU для обучения с подкреплением на уровне предобучения.
  • Рост эффективности обучения: xAI заявляет 6-кратный прирост вычислительной эффективности RL‑тренировки за счёт новых инфраструктурных и алгоритмических решений.
  • Расширение обучающей выборки для RL: от математики и кода к множеству доменов с верифицируемой обратной связью.
  • Нативная работа с инструментами:
    • интерпретатор Python,
    • веб‑поиск по всему интернету,
    • глубокий поиск по X (ключевые слова, семантический поиск, работа с медиа).
  • Состояние дел на бенчмарках (Grok 4 и Grok 4 Heavy):
    • Humanity's Last Exam (полный сет, 3 апреля 2025, с Python и интернет‑инструментами):
      • Grok 4 Heavy w/ Python + Internet — 44,4
      • Grok 4 w/ Python + Internet — 38,6
      • Gemini Deep Research — 26,9
      • Grok 4 — 25,4
      • o3 w/ Python + Internet — 24,9
      • Gemini 2.5 Pro — 21,6
      • o3 — 21
    • Humanity's Last Exam (text‑only subset, Pass@1, с инструментами): 50,7% для Grok 4 Heavy.
    • ARC‑AGI V2 (Abstraction and Reasoning):
      • Grok 4 — 15,9
      • Claude Opus 4 — 8,6
      • o3 — 6,5
      • Gemini 2.5 Pro — 4,9
    • GPQA (science, с Python):
      • Grok 4 Heavy w/ Python — 88,4
      • Grok 4 — 87,5
      • Gemini 2.5 Pro — 86,4
      • o3 — 83,3
      • Claude Opus 4 — 79,6
    • LiveCodeBench (январь–май, competitive coding):
      • Grok 4 Heavy w/ Python — 79,4
      • Grok 4 w/ Python — 79,3
      • Grok 4 — 79
      • Gemini 2.5 Pro — 74,2
      • o3 — 72
    • USAMO 2025 (олимпиадные математические доказательства, с Python):
      • Grok 4 Heavy w/ Python — 61,9
      • Gemini Deep Think — 49,4
      • Grok 4 — 37,5
      • Gemini 2.5 Pro — 34,5
      • o3 — 21,7
    • HMMT 2025 (соревновательная математика):
      • Grok 4 Heavy w/ Python — 96,7
      • Grok 4 w/ Python — 93,9
      • Grok 4 — 90
      • Gemini 2.5 Pro — 82,5
      • o3 — 77,5
      • Claude Opus 4 — 58,3
    • AIME’25 (competition math):
      • Grok 4 Heavy w/ Python — 100
      • Grok 4 w/ Python — 98,8
      • o3 w/ Python — 98,4
      • Grok 4 — 91,7
      • o3 — 88,9
      • Gemini 2.5 Pro — 88
      • Claude Opus 4 — 75,5
  • Параллельное мышление на тесте: Grok 4 Heavy использует параллельный test‑time compute — несколько «агентов» одновременно прорабатывают гипотезы.
  • Контекстное окно: до 256 000 токенов в Grok 4 API.
  • Мультимодальность: текст + изображение; в Voice Mode — анализ видеопотока с камеры в реальном времени.
  • Live search API: встроенный поиск по X, вебу и новостям для ответов с актуальными данными.
  • Безопасность: заявлена поддержка SOC 2 Type 2, GDPR, CCPA.
  • Интеграция с hyperscaler‑партнёрами: Grok 4 «скоро» появляется у крупных облачных партнёров, сейчас — в Microsoft Foundry.

Отдельный пользовательский продукт — Grok 4 Voice Mode:

  • обновлённый голос и более естественные диалоги;
  • возможность включить видео, чтобы Grok «видел» сцену и комментировал её в реальном времени;
  • собственная модель речи xAI, обученная на их RL‑фреймворке и сжатии речи.

Как это работает

Масштабированное обучение с подкреплением

xAI использует Grok 3 как точку старта: это крупная языковая модель с сильным предобучением на предсказание следующего токена. Поверх этого xAI построила Grok 3 Reasoning, обученный RL‑подходом «думать дольше» и проверять гипотезы.

Во время экспериментов с Grok 3 Reasoning команда увидела, что качество растёт по мере масштабирования RL‑части. Это подтолкнуло xAI к идее: довести обучение с подкреплением до масштабов предобучения.

Для Grok 4 xAI задействовала кластер Colossus на 200 000 GPU. На нём они гоняют RL‑обучение, которое не только слегка донастраивает модель, а фактически работает в том же масштабе, что и базовое предобучение.

Под капотом несколько ключевых вещей:

  • 6х рост эффективности вычислений для RL‑тренировок за счёт:
    • новой инфраструктуры распределённого обучения,
    • алгоритмических улучшений, которые уменьшают количество FLOPs на единицу улучшения качества.
  • Новая RL‑обучающая выборка:
    • раньше — в основном математика и код,
    • сейчас — много доменов с верифицируемым результатом (можно проверить, верен ли ответ).

Результат — «гладкая» кривая улучшения качества по мере роста затраченного compute. xAI подчёркивает, что на RL ушло более чем на порядок больше вычислений, чем раньше.

Нативное использование инструментов

Grok 4 обучен использовать инструменты через RL. Это не просто API‑вызовы, а часть стратегии решения задач.

Инструменты, с которыми Grok 4 работает «из коробки»:

  • Интерпретатор Python — для сложных вычислений, кода, симуляций.
  • Веб‑поиск — Grok сам формирует поисковые запросы, перебирает результаты, открывает сайты и собирает нужные факты.
  • Поиск по X:
    • расширенный поиск по ключевым словам,
    • семантический поиск по смыслу,
    • просмотр медиа (изображения, видео) для уточнения ответа.

Пример из демонстрации: пользователь расплывчато просит «тот вирусный пост про головоломку с ногами». Grok 4:

  1. Строит гипотезу: это, вероятно, про NYT Connections.
  2. Формирует несколько запросов в X Search с фильтрами по датам, лайкам и ключевым словам.
  3. Сужает поиск до конкретного номера Connections (#756) и категории «слова, оканчивающиеся на омонимы частей ноги».
  4. Находит пост с десятками тысяч лайков, который подходит по описанию, и пересказывает контекст.

Всё это — результат RL‑обучения «как использовать инструменты», а не ручной прошивки правил.

Параллельное мышление в Grok 4 Heavy

Grok 4 Heavy — версия, которая расходует больше вычислений при ответе. Механика:

  • при сложном запросе модель запускает несколько «агентов»;
  • каждый агент прорабатывает свой сценарий решения;
  • итоговый ответ агрегирует выводы агентов.

На интерфейсе это выглядит как несколько процессов с пометкой ~ 10 MIN LEFT и общим статусом Thought for 10 minutes. Такой подход особенно полезен на задачах:

  • с длинными математическими доказательствами;
  • с многошаговыми исследовательскими запросами;
  • с высоким риском логических ошибок.

Grok 4 API

Grok 4 API — это фронтир‑уровень reasoning и мультимодальности для разработчиков:

  • 256 000 токенов контекста — можно подавать длинные документы, логи, кодовые базы.
  • Мультимодальность — текст + изображение.
  • Live search API — встроенный поиск по:
    • X,
    • вебу,
    • новостным источникам.
  • Enterprise‑фокус:
    • SOC 2 Type 2,
    • соответствие GDPR,
    • соответствие CCPA.

xAI заявляет, что Grok 4 скоро появится у hyperscaler‑партнёров. Сейчас один из каналов доступа — Microsoft Foundry, где Grok 4.2 можно подключить через экосистему Azure.

Grok 4 Voice Mode

Голосовой режим — отдельный акцент xAI:

  • новый спокойный голос и переработанный UX диалога;
  • возможность говорить, одновременно показывая сцену с камеры;
  • Grok в реальном времени анализирует видео и отвечает голосом.

Модель речи обучена внутри xAI с использованием их RL‑фреймворка и продвинутого сжатия аудио, чтобы удерживать качество при потоковой передаче.

Что это значит для вас

Для разработчиков и ML‑команд

Если вы работаете в экосистеме Microsoft:

  • Microsoft Foundry упрощает доступ к Grok 4.2. Не нужно отдельно договариваться с xAI, можно подключать модель через знакомые инструменты Azure.
  • Grok 4 API даёт:
    • длинный контекст на 256k токенов — удобно для:
      • анализа юридических документов,
      • работы с репозиториями кода,
      • обработки длинных логов и отчётов;
    • сильный reasoning для сложных задач в математике, науке и программировании;
    • live‑поиск по X и вебу.

Где Grok 4 особенно уместен:

  • Исследовательские ассистенты:
    • сбор информации по теме из новостей, блогов и X;
    • поиск первоисточников и проверка фактов.
  • Dev‑инструменты:
    • разбор и рефакторинг больших кодовых баз,
    • генерация тестов и проверка решений на задачах уровня LiveCodeBench.
  • Научные и математические задачи:
    • помощь в олимпиадной математике (USAMO, HMMT, AIME);
    • работа с научными текстами (GPQA).

Где стоит быть осторожнее:

  • Высокорисковые сценарии (медицина, финансы, юриспруденция):
    • несмотря на сильные бенчмарки, модель всё равно может ошибаться;
    • обязательно добавляйте человеческий контроль и верификацию.
  • Долгие и дорогие запросы:
    • Grok 4 Heavy использует параллельный test‑time compute и тратит больше ресурсов;
    • его стоит включать точечно для задач, где важнее качество, а не скорость и стоимость.

Если вы в России:

  • xAI и продукты вокруг Grok официально ориентированы на глобальный рынок.
  • Доступ через Microsoft Foundry и hyperscaler‑облака может потребовать:
    • корпоративный аккаунт Azure;
    • соблюдение санкционных и экспортных ограничений.
  • Частным пользователям и небольшим студиям может понадобиться VPN и зарубежная платёжная инфраструктура, если xAI или hyperscaler ограничивают доступ по региону.

Для продуктовых команд и бизнеса

Grok 4 и Grok 4 Heavy интересны, если вы:

  • строите агентные системы, где модель:
    • сама планирует шаги,
    • вызывает инструменты (поиск, код, API),
    • принимает решения на основе нескольких источников;
  • хотите глубокий анализ данных:
    • длинные документы,
    • сложные отчёты,
    • комбинация текста и изображений.

Примеры задач, где Grok 4 выглядит логичным выбором:

  • аналитические ассистенты для финансовых/инвестиционных отделов (с обязательным человеческим контролем);
  • системы мониторинга инфополя, которые тянут данные из X и новостей;
  • обучающие продукты по математике и программированию с задачами уровня олимпиад и соревнований.

Где Grok 4 может быть избыточен:

  • простые чат‑боты поддержки,
  • FAQ‑боты на базе вашей базы знаний,
  • сценарии, где достаточно локальной модели с меньшими требованиями к инфраструктуре.

Для конечных пользователей

Если у вас есть доступ к потребительской версии Grok:

  • Voice Mode подойдёт для:
    • hands‑free общения с ассистентом,
    • задач «покажи и спроси» — от бытовых до учебных.
  • Видеорежим интересен для:
    • разбора интерфейсов и экранов,
    • обсуждения предметов и сцен, которые вы показываете камерой.

Но важно понимать: это всё ещё языковая модель, а не эксперт‑человек. Ошибки, галлюцинации и культурные искажения возможны.

Место на рынке

xAI напрямую сравнивает Grok 4 и Grok 4 Heavy с флагманами от Google, OpenAI и Anthropic через открытые бенчмарки.

По данным xAI:

  • Сложные академические задачи:
    • на Humanity's Last Exam (полный сет, с инструментами) Grok 4 Heavy (44,4) и Grok 4 (38,6) опережают Gemini Deep Research (26,9), Gemini 2.5 Pro (21,6) и o3 (21 / 24,9 с инструментами).
    • на Humanity's Last Exam (text‑only subset) Grok 4 Heavy достигает 50,7% Pass@1.
  • Абстракция и рассуждение (ARC‑AGI V2):
    • Grok 4 — 15,9%, почти вдвое выше, чем Claude Opus 4 (8,6), и заметно выше o3 (6,5) и Gemini 2.5 Pro (4,9).
  • Научные и математические бенчмарки:
    • GPQA: Grok 4 Heavy (88,4) и Grok 4 (87,5) находятся на уровне и выше Gemini 2.5 Pro (86,4), заметно опережая o3 (83,3) и Claude Opus 4 (79,6).
    • USAMO 2025: Grok 4 Heavy (61,9) опережает Gemini Deep Think (49,4) и Grok 4 (37,5).
    • HMMT 2025 и AIME’25: Grok 4 Heavy и Grok 4 занимают верхние позиции с результатами до 100%.
  • Кодинг (LiveCodeBench):
    • Grok 4 Heavy w/ Python и Grok 4 w/ Python набирают около 79,3–79,4, выше, чем Gemini 2.5 Pro (74,2) и o3 (72).

На агентном бенчмарке Vending‑Bench Grok 4 показывает:

  • $4694,15 среднего net worth и 4569 проданных единиц за 5 прогонов.
  • Для сравнения, Claude Opus 4 набирает $2077,41 и 1412 единиц.
  • Средний человек — $844,05 и 344 единицы.

Эти цифры подтверждают, что xAI делает ставку на масштабированное RL и агентность, а не только на увеличение параметров модели.

По стоимости запросов и задержке xAI в этом анонсе ничего не раскрывает. Для реальных решений придётся смотреть на тарифы Microsoft Foundry и сравнивать их с ценами на GPT‑5, Claude Opus 4, Gemini 2.5 Pro и другие модели в вашей облачной экосистеме.

Что дальше

xAI явно не собирается останавливаться на Grok 4:

  • команда планирует дальше масштабировать RL‑обучение;
  • перейти от «контролируемых» доменов с верифицируемыми ответами к более сложным реальным задачам;
  • развивать мультимодальность — глубже интегрировать текст, изображение, видео и аудио;
  • продолжать работу над скоростью и эффективностью, чтобы удерживать баланс между качеством и затратами.

Для рынка это означает ещё один сильный вариант фронтир‑модели, который теперь доступен через Microsoft Foundry. Для вас — ещё один инструмент в арсенале, если вы строите продукты на стыке сложного reasoning, больших контекстов и живого доступа к данным из X и веба.


Читайте также

🔗 Источник: https://x.ai/news/grok-4
Grok 4.2 в Microsoft Foundry: новый флагман xAI добрался до hyperscaler‑облака — VogueTech | VogueTech