Дата публикации
ai_products

NVIDIA Nemotron 3 Super появился в Amazon Bedrock: гигант на 120 млрд параметров для сложных агентных задач

Что появилось / что изменилось

NVIDIA Nemotron 3 Super теперь доступен в Amazon Bedrock как полностью управляемая серверлесс‑модель. Никаких своих GPU, кластеров и DevOps — заходите в консоль AWS, выбираете Nemotron 3 Super в разделе NVIDIA и сразу тестируете в Chat/Text playground.

Ключевые характеристики:

  • Архитектура: гибридный Mixture of Experts (MoE) на базе Hybrid Transformer‑Mamba.
  • Размер: 120 млрд параметров, из них 12 млрд активны при инференсе.
  • Контекст: до 256 000 токенов — это длинные цепочки рассуждений, большие документы и сложные пайплайны без жёсткой нарезки.
  • Ввод/вывод: текст → текст.
  • Языки: английский, французский, немецкий, итальянский, японский, испанский, китайский.

По заявлению NVIDIA, Nemotron 3 Super даёт:

  • До 5 раз более высокую пропускную способность по сравнению с предыдущей версией Nemotron Super в своём размерном классе.
  • До 2 раз более высокую точность на задачах рассуждений и агентных сценариях относительно прошлой версии.
  • Высокие результаты на AIME 2025, Terminal‑Bench, SWE‑Bench (verified и multilingual), RULER и более чем 10 средах, где модель обучали с помощью multi‑environment RL в NVIDIA NeMo.

Весы, датасеты и рецепты обучения открыты. Это даёт возможность дообучать Nemotron 3 Super на своей инфраструктуре, если нужны строгая приватность и контроль над данными.

Как это работает

Nemotron 3 Super — это MoE‑модель, но не в классическом виде. NVIDIA использует так называемый latent MoE: эксперты работают не напрямую с токенами, а с общей скрытой (latent) репрезентацией. Потом результат проецируется обратно в токенное пространство.

Зачем это нужно:

  • Модель может задействовать до 4 раз больше экспертов при том же бюджете инференса.
  • Эксперты лучше специализируются на тонких семантических различиях, доменных абстракциях и многошаговых цепочках рассуждений.

Второй важный элемент — Multi‑Token Prediction (MTP):

  • Модель предсказывает сразу несколько будущих токенов за один проход вперёд.
  • Это сильно ускоряет длинные последовательности рассуждений и структурированные ответы.
  • Особенно полезно для планирования, генерации траекторий, расширенного chain‑of‑thought и генерации кода.

В Amazon Bedrock Nemotron 3 Super работает как полностью управляемый сервис:

  1. Вы заходите в консоль Bedrock.
  2. Открываете Chat/Text playground.
  3. В списке моделей выбираете NVIDIA → NVIDIA Nemotron 3 Super.
  4. Нажимаете Apply и сразу отправляете промпты.

AWS предлагает тестировать модель не на «перефразируй текст», а на инженерных задачах уровня системной архитектуры. Пример промпта из блога — спроектировать глобально распределённый сервис rate‑limiting на Python под 100 000 запросов в секунду с разбором архитектуры, реализацией на Redis и обработкой гонок.

Что это значит для вас

Nemotron 3 Super — это не «ещё один чат‑бот». Модель заточена под сложные агентные сценарии и многошаговые решения, где важнее логика, чем красивый small talk.

Где Nemotron 3 Super полезен:

  • Разработка ПО.

    • Генерация и объяснение кода.
    • Разбор чужих репозиториев, планирование рефакторинга.
    • Пошаговое проектирование сервисов, протоколов и пайплайнов.
  • Финтех и аналитика.

    • Разбор кредитных заявок, извлечение данных из документов.
    • Анализ паттернов доходов и расходов.
    • Поиск аномалий и подозрительных операций для скоринга риска.
  • Кибербезопасность.

    • Триаж инцидентов.
    • Анализ возможного вредоносного кода.
    • Поддержка охоты за угрозами с учётом контекста инфраструктуры.
  • Поиск и маршрутизация запросов.

    • Понимание намерений пользователя.
    • Вызов правильных «агентов» и инструментов по сложному запросу.
  • Ритейл.

    • Оптимизация запасов.
    • Персональные рекомендации в реальном времени.
    • Поддержка консультантов в магазине.
  • Мультиагентные воркфлоу.

    • Оркестрация агентов под конкретные роли: планирование, работа с инструментами, верификация, доменная логика.
    • Автоматизация сложных бизнес‑процессов от начала до конца.

Когда Nemotron 3 Super может быть не лучшим выбором:

  • Вам нужен просто дешёвый и быстрый чат для поддержки с короткими ответами.
  • У вас нет доступа к AWS или вы не готовы работать через Amazon Bedrock.
  • Важна русскоязычная генерация «из коробки» — в списке языков русского нет, придётся проверять качество ответов и при необходимости дообучать модель на своей стороне.

Если вы работаете из России, доступ к Amazon Bedrock может потребовать VPN и аккаунт AWS, привязанный к поддерживаемому региону. Это нужно учитывать при планировании продакшен‑интеграции.

Место на рынке

Nemotron 3 Super играет в лиге крупных открытых моделей с акцентом на рассуждения и агентные сценарии. NVIDIA делает ставку на три вещи:

  • Большой контекст — до 256K токенов.
  • MoE с latent‑подходом и Hybrid Transformer‑Mamba.
  • MTP для ускорения длинных цепочек вывода.

По сравнению с предыдущей версией Nemotron Super NVIDIA заявляет:

  • До 5 раз выше пропускная способность при инференсе в том же классе.
  • До 2 раз выше точность на задачах рассуждений и агентных сценариях.

На бенчмарках AIME 2025, Terminal‑Bench, SWE‑Bench (verified и multilingual), RULER и в более чем 10 средах RL‑обучения через NeMo Nemotron 3 Super показывает высокие результаты. Это сигнал для тех, кто строит мультиагентные системы, сложные пайплайны рассуждений и корпоративные ассистенты, завязанные на код и инфраструктуру.

Прямых цифр по сравнению с GPT‑4o, GPT‑5 или Claude 4 в материале нет, поэтому ориентироваться стоит на ваш стек: если вы уже глубоко в AWS и вам важны открытые веса, длинный контекст и акцент на reasoning‑задачах, Nemotron 3 Super в Amazon Bedrock — один из самых интересных вариантов для пилотов и продакшена.


Читайте также