- Дата публикации
NVIDIA Nemotron 3 Super появился в Amazon Bedrock: гигант на 120 млрд параметров для сложных агентных задач
Что появилось / что изменилось
NVIDIA Nemotron 3 Super теперь доступен в Amazon Bedrock как полностью управляемая серверлесс‑модель. Никаких своих GPU, кластеров и DevOps — заходите в консоль AWS, выбираете Nemotron 3 Super в разделе NVIDIA и сразу тестируете в Chat/Text playground.
Ключевые характеристики:
- Архитектура: гибридный Mixture of Experts (MoE) на базе Hybrid Transformer‑Mamba.
- Размер: 120 млрд параметров, из них 12 млрд активны при инференсе.
- Контекст: до 256 000 токенов — это длинные цепочки рассуждений, большие документы и сложные пайплайны без жёсткой нарезки.
- Ввод/вывод: текст → текст.
- Языки: английский, французский, немецкий, итальянский, японский, испанский, китайский.
По заявлению NVIDIA, Nemotron 3 Super даёт:
- До 5 раз более высокую пропускную способность по сравнению с предыдущей версией Nemotron Super в своём размерном классе.
- До 2 раз более высокую точность на задачах рассуждений и агентных сценариях относительно прошлой версии.
- Высокие результаты на AIME 2025, Terminal‑Bench, SWE‑Bench (verified и multilingual), RULER и более чем 10 средах, где модель обучали с помощью multi‑environment RL в NVIDIA NeMo.
Весы, датасеты и рецепты обучения открыты. Это даёт возможность дообучать Nemotron 3 Super на своей инфраструктуре, если нужны строгая приватность и контроль над данными.
Как это работает
Nemotron 3 Super — это MoE‑модель, но не в классическом виде. NVIDIA использует так называемый latent MoE: эксперты работают не напрямую с токенами, а с общей скрытой (latent) репрезентацией. Потом результат проецируется обратно в токенное пространство.
Зачем это нужно:
- Модель может задействовать до 4 раз больше экспертов при том же бюджете инференса.
- Эксперты лучше специализируются на тонких семантических различиях, доменных абстракциях и многошаговых цепочках рассуждений.
Второй важный элемент — Multi‑Token Prediction (MTP):
- Модель предсказывает сразу несколько будущих токенов за один проход вперёд.
- Это сильно ускоряет длинные последовательности рассуждений и структурированные ответы.
- Особенно полезно для планирования, генерации траекторий, расширенного chain‑of‑thought и генерации кода.
В Amazon Bedrock Nemotron 3 Super работает как полностью управляемый сервис:
- Вы заходите в консоль Bedrock.
- Открываете Chat/Text playground.
- В списке моделей выбираете NVIDIA → NVIDIA Nemotron 3 Super.
- Нажимаете Apply и сразу отправляете промпты.
AWS предлагает тестировать модель не на «перефразируй текст», а на инженерных задачах уровня системной архитектуры. Пример промпта из блога — спроектировать глобально распределённый сервис rate‑limiting на Python под 100 000 запросов в секунду с разбором архитектуры, реализацией на Redis и обработкой гонок.
Что это значит для вас
Nemotron 3 Super — это не «ещё один чат‑бот». Модель заточена под сложные агентные сценарии и многошаговые решения, где важнее логика, чем красивый small talk.
Где Nemotron 3 Super полезен:
-
Разработка ПО.
- Генерация и объяснение кода.
- Разбор чужих репозиториев, планирование рефакторинга.
- Пошаговое проектирование сервисов, протоколов и пайплайнов.
-
Финтех и аналитика.
- Разбор кредитных заявок, извлечение данных из документов.
- Анализ паттернов доходов и расходов.
- Поиск аномалий и подозрительных операций для скоринга риска.
-
Кибербезопасность.
- Триаж инцидентов.
- Анализ возможного вредоносного кода.
- Поддержка охоты за угрозами с учётом контекста инфраструктуры.
-
Поиск и маршрутизация запросов.
- Понимание намерений пользователя.
- Вызов правильных «агентов» и инструментов по сложному запросу.
-
Ритейл.
- Оптимизация запасов.
- Персональные рекомендации в реальном времени.
- Поддержка консультантов в магазине.
-
Мультиагентные воркфлоу.
- Оркестрация агентов под конкретные роли: планирование, работа с инструментами, верификация, доменная логика.
- Автоматизация сложных бизнес‑процессов от начала до конца.
Когда Nemotron 3 Super может быть не лучшим выбором:
- Вам нужен просто дешёвый и быстрый чат для поддержки с короткими ответами.
- У вас нет доступа к AWS или вы не готовы работать через Amazon Bedrock.
- Важна русскоязычная генерация «из коробки» — в списке языков русского нет, придётся проверять качество ответов и при необходимости дообучать модель на своей стороне.
Если вы работаете из России, доступ к Amazon Bedrock может потребовать VPN и аккаунт AWS, привязанный к поддерживаемому региону. Это нужно учитывать при планировании продакшен‑интеграции.
Место на рынке
Nemotron 3 Super играет в лиге крупных открытых моделей с акцентом на рассуждения и агентные сценарии. NVIDIA делает ставку на три вещи:
- Большой контекст — до 256K токенов.
- MoE с latent‑подходом и Hybrid Transformer‑Mamba.
- MTP для ускорения длинных цепочек вывода.
По сравнению с предыдущей версией Nemotron Super NVIDIA заявляет:
- До 5 раз выше пропускная способность при инференсе в том же классе.
- До 2 раз выше точность на задачах рассуждений и агентных сценариях.
На бенчмарках AIME 2025, Terminal‑Bench, SWE‑Bench (verified и multilingual), RULER и в более чем 10 средах RL‑обучения через NeMo Nemotron 3 Super показывает высокие результаты. Это сигнал для тех, кто строит мультиагентные системы, сложные пайплайны рассуждений и корпоративные ассистенты, завязанные на код и инфраструктуру.
Прямых цифр по сравнению с GPT‑4o, GPT‑5 или Claude 4 в материале нет, поэтому ориентироваться стоит на ваш стек: если вы уже глубоко в AWS и вам важны открытые веса, длинный контекст и акцент на reasoning‑задачах, Nemotron 3 Super в Amazon Bedrock — один из самых интересных вариантов для пилотов и продакшена.