NVIDIA Nemotron 3 Super: открытая 120B‑модель для агентных ИИ с контекстом в миллион токенов — VogueTech

Что появилось / что изменилось

NVIDIA представила Nemotron 3 Super — открытую языковую модель на 120 млрд параметров, из которых при работе активны только 12 млрд. Она заточена под сложные агентные системы, где много шагов, инструментов и длинные цепочки рассуждений.

Ключевые цифры:

120 млрд параметров общего размера, 12 млрд активных на инференсе (Mixture-of-Experts).
Контекстное окно — 1 млн токенов. Агент может держать в памяти весь рабочий процесс без обрезки истории.
До 5 раз выше пропускная способность, чем у предыдущей Nemotron Super.
До 2 раз выше точность по сравнению с прошлой Nemotron Super.
До 3 раз быстрее инференс за счёт предсказания нескольких токенов вперёд.
На платформе NVIDIA Blackwell модель работает в формате NVFP4, что даёт до 4 раз более быстрый инференс, чем FP8 на NVIDIA Hopper, без потери точности.

Nemotron 3 Super уже используют Perplexity (поиск и один из ~20 оркеструемых моделей в Computer), CodeRabbit, Factory, Greptile, Edison Scientific, Lila Sciences. Крупные B2B‑игроки вроде Amdocs, Palantir, Cadence, Dassault Systèmes и Siemens встраивают модель в свои платформы для автоматизации телеком‑, кибербезопасности и полупроводникового дизайна.

Модель доступна на build.nvidia.com, в Perplexity, OpenRouter и Hugging Face. Поставщики облаков: Google Cloud Vertex AI, Oracle Cloud Infrastructure; позже — Amazon Bedrock и Microsoft Azure. HPE добавляет Nemotron в свой agents hub.

Как это работает

Nemotron 3 Super построена на гибридной архитектуре Mixture-of-Experts:

Гибрид Mamba + Transformer. Часть слоёв — Mamba, часть — трансформеры. Mamba‑слои дают до 4 раз более эффективное использование памяти и вычислений, трансформеры отвечают за сложное рассуждение.
MoE с частичной активацией. Из 120 млрд параметров при генерации активны только 12 млрд. Это снижает стоимость инференса, но сохраняет «мозги» большого размера за счёт экспертов.
Latent MoE. Новый приём: модель активирует сразу четырёх специализированных экспертов по цене одного при генерации следующего токена. Это повышает точность без пропорционального роста вычислений.
Multi-Token Prediction. Модель предсказывает сразу несколько будущих токенов, а не по одному. Это ускоряет инференс до 3 раз.

Контекст в 1 млн токенов решает проблему «взрыва контекста» в мультиагентных сценариях, где приходится пересылать и историю, и результаты инструментов, и промежуточные рассуждения. Это также снижает риск «дрейфа цели», когда агент забывает исходную задачу на длинных цепочках.

На Blackwell Nemotron 3 Super работает в NVFP4: меньше памяти, до 4 раз быстрее, чем FP8 на Hopper, при той же точности.

NVIDIA открывает веса под разрешительной лицензией, а также публикует методологию обучения: более 10 трлн токенов синтетических данных, 15 сред для обучения с подкреплением и рецепты оценки. Всё это можно использовать через платформу NVIDIA NeMo для дообучения или создания своих моделей.

Nemotron 3 Super возглавляет рейтинг Artificial Analysis по эффективности и открытости среди моделей сопоставимого размера. Модель также двигает исследовательского агента NVIDIA AI-Q на первое место в DeepResearch Bench и DeepResearch Bench II — это бенчмарки на многократный поиск и связное рассуждение по большим корпусам документов.

Что это значит для вас

Разработчики агентных систем. Если вы строите многошаговых агентов — для кода, аналитики, внутренних ассистентов — Nemotron 3 Super закрывает две главные боли:

Можно держать целый пайплайн в одном контексте: кодовую базу, лог вызовов инструментов, длинные обсуждения. Меньше костылей с разбиением на документы и «перерассуждением» на каждом шаге.
MoE и multi-token prediction снижают стоимость и задержку по сравнению с монолитными 100B+ моделями при тех же сценариях.

Подходящие задачи:

Разработка софта. Агент может загрузить весь репозиторий и работать end-to-end: от генерации фич до отладки, без постоянного перекраивания контекста.
Финансовый и бизнес‑анализ. Тысячи страниц отчётов, презентаций и переписок можно держать в памяти, не пересчитывая всё заново при каждом вопросе.
Наука и биотех. Глубокий поиск по литературе, анализ датасетов, работа с молекулярными структурами — то, чем уже занимаются Edison Scientific и Lila Sciences.
Кибербезопасность и оркестрация. Высокоточный tool calling позволяет агентам уверенно ходить по большим библиотекам функций и сценариев, что критично, например, для автономного реагирования на инциденты.

Если вы стартап или внутренняя команда R&D, вам, скорее всего, придётся работать через зарубежные облака или платформы вроде Perplexity, OpenRouter, Hugging Face, Google Cloud, Oracle Cloud, позже — AWS и Azure. Из России доступ может потребовать VPN и юридическую аккуратность вокруг лицензий и санкций.

Когда Nemotron 3 Super не лучший выбор:

Небольшие чат‑боты, FAQ, простые ассистенты без длинной истории. Там дешевле и проще взять более компактную модель.
Мобильные и on-device сценарии без доступа к мощным GPU. 120B с MoE — всё равно история про дата‑центры.
Если вам нужен максимально «универсальный» ассистент из коробки для широкой аудитории, а не платформа для своих агентов. Nemotron 3 Super — больше конструктор для разработчиков.

Место на рынке

Nemotron 3 Super — это тяжёлая открытая модель с упором на агентные сценарии и длинный контекст. Она конкурирует не столько с компактными LLM, сколько с другими крупными моделями «под агентов».

Конкретные цифры сравнения с GPT‑4o, GPT‑5 или Claude 3/4 NVIDIA не приводит. Зато есть понятные ориентиры внутри их экосистемы:

По пропускной способности Nemotron 3 Super до 5 раз быстрее прошлой Nemotron Super.
По точности — до 2 раз лучше предыдущей Nemotron Super.
По скорости инференса на Blackwell — до 4 раз быстрее, чем FP8‑режим на Hopper.

По открытости Nemotron 3 Super интересна тем, что NVIDIA выкладывает не только веса под разрешительной лицензией, но и данные, и рецепты обучения. Это делает модель кандидатом на роль базовой платформы для тех, кто хочет строить собственные агентные стеки и не зависеть от закрытых API.

Если резюмировать: Nemotron 3 Super — вариант для команд, которые уже доросли до мультиагентных систем с длинной памятью и хотят контролировать стек, а не просто «подключить ещё один чат‑бот».

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также