NVIDIA Nemotron 3 Super появился в Amazon Bedrock: гигант на 120 млрд параметров для сложных агентных задач — VogueTech

Что появилось / что изменилось

NVIDIA Nemotron 3 Super теперь доступен в Amazon Bedrock как полностью управляемая серверлесс‑модель. Никаких своих GPU, кластеров и DevOps — заходите в консоль AWS, выбираете Nemotron 3 Super в разделе NVIDIA и сразу тестируете в Chat/Text playground.

Ключевые характеристики:

Архитектура: гибридный Mixture of Experts (MoE) на базе Hybrid Transformer‑Mamba.
Размер: 120 млрд параметров, из них 12 млрд активны при инференсе.
Контекст: до 256 000 токенов — это длинные цепочки рассуждений, большие документы и сложные пайплайны без жёсткой нарезки.
Ввод/вывод: текст → текст.
Языки: английский, французский, немецкий, итальянский, японский, испанский, китайский.

По заявлению NVIDIA, Nemotron 3 Super даёт:

До 5 раз более высокую пропускную способность по сравнению с предыдущей версией Nemotron Super в своём размерном классе.
До 2 раз более высокую точность на задачах рассуждений и агентных сценариях относительно прошлой версии.
Высокие результаты на AIME 2025, Terminal‑Bench, SWE‑Bench (verified и multilingual), RULER и более чем 10 средах, где модель обучали с помощью multi‑environment RL в NVIDIA NeMo.

Весы, датасеты и рецепты обучения открыты. Это даёт возможность дообучать Nemotron 3 Super на своей инфраструктуре, если нужны строгая приватность и контроль над данными.

Как это работает

Nemotron 3 Super — это MoE‑модель, но не в классическом виде. NVIDIA использует так называемый latent MoE: эксперты работают не напрямую с токенами, а с общей скрытой (latent) репрезентацией. Потом результат проецируется обратно в токенное пространство.

Зачем это нужно:

Модель может задействовать до 4 раз больше экспертов при том же бюджете инференса.
Эксперты лучше специализируются на тонких семантических различиях, доменных абстракциях и многошаговых цепочках рассуждений.

Второй важный элемент — Multi‑Token Prediction (MTP):

Модель предсказывает сразу несколько будущих токенов за один проход вперёд.
Это сильно ускоряет длинные последовательности рассуждений и структурированные ответы.
Особенно полезно для планирования, генерации траекторий, расширенного chain‑of‑thought и генерации кода.

В Amazon Bedrock Nemotron 3 Super работает как полностью управляемый сервис:

Вы заходите в консоль Bedrock.
Открываете Chat/Text playground.
В списке моделей выбираете NVIDIA → NVIDIA Nemotron 3 Super.
Нажимаете Apply и сразу отправляете промпты.

AWS предлагает тестировать модель не на «перефразируй текст», а на инженерных задачах уровня системной архитектуры. Пример промпта из блога — спроектировать глобально распределённый сервис rate‑limiting на Python под 100 000 запросов в секунду с разбором архитектуры, реализацией на Redis и обработкой гонок.

Что это значит для вас

Nemotron 3 Super — это не «ещё один чат‑бот». Модель заточена под сложные агентные сценарии и многошаговые решения, где важнее логика, чем красивый small talk.

Где Nemotron 3 Super полезен:

Разработка ПО.
- Генерация и объяснение кода.
- Разбор чужих репозиториев, планирование рефакторинга.
- Пошаговое проектирование сервисов, протоколов и пайплайнов.
Финтех и аналитика.
- Разбор кредитных заявок, извлечение данных из документов.
- Анализ паттернов доходов и расходов.
- Поиск аномалий и подозрительных операций для скоринга риска.
Кибербезопасность.
- Триаж инцидентов.
- Анализ возможного вредоносного кода.
- Поддержка охоты за угрозами с учётом контекста инфраструктуры.
Поиск и маршрутизация запросов.
- Понимание намерений пользователя.
- Вызов правильных «агентов» и инструментов по сложному запросу.
Ритейл.
- Оптимизация запасов.
- Персональные рекомендации в реальном времени.
- Поддержка консультантов в магазине.
Мультиагентные воркфлоу.
- Оркестрация агентов под конкретные роли: планирование, работа с инструментами, верификация, доменная логика.
- Автоматизация сложных бизнес‑процессов от начала до конца.

Когда Nemotron 3 Super может быть не лучшим выбором:

Вам нужен просто дешёвый и быстрый чат для поддержки с короткими ответами.
У вас нет доступа к AWS или вы не готовы работать через Amazon Bedrock.
Важна русскоязычная генерация «из коробки» — в списке языков русского нет, придётся проверять качество ответов и при необходимости дообучать модель на своей стороне.

Если вы работаете из России, доступ к Amazon Bedrock может потребовать VPN и аккаунт AWS, привязанный к поддерживаемому региону. Это нужно учитывать при планировании продакшен‑интеграции.

Место на рынке

Nemotron 3 Super играет в лиге крупных открытых моделей с акцентом на рассуждения и агентные сценарии. NVIDIA делает ставку на три вещи:

Большой контекст — до 256K токенов.
MoE с latent‑подходом и Hybrid Transformer‑Mamba.
MTP для ускорения длинных цепочек вывода.

По сравнению с предыдущей версией Nemotron Super NVIDIA заявляет:

До 5 раз выше пропускная способность при инференсе в том же классе.
До 2 раз выше точность на задачах рассуждений и агентных сценариях.

На бенчмарках AIME 2025, Terminal‑Bench, SWE‑Bench (verified и multilingual), RULER и в более чем 10 средах RL‑обучения через NeMo Nemotron 3 Super показывает высокие результаты. Это сигнал для тех, кто строит мультиагентные системы, сложные пайплайны рассуждений и корпоративные ассистенты, завязанные на код и инфраструктуру.

Прямых цифр по сравнению с GPT‑4o, GPT‑5 или Claude 4 в материале нет, поэтому ориентироваться стоит на ваш стек: если вы уже глубоко в AWS и вам важны открытые веса, длинный контекст и акцент на reasoning‑задачах, Nemotron 3 Super в Amazon Bedrock — один из самых интересных вариантов для пилотов и продакшена.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также