NVIDIA Nemotron 3 Ultra вышла в Amazon SageMaker JumpStart: миллион токенов и упор на автономных агентов — VogueTech

Что нового

AWS и NVIDIA запустили Nemotron 3 Ultra в Amazon SageMaker JumpStart в режиме day‑zero — модель доступна сразу и разворачивается в один клик.

Ключевые характеристики Nemotron 3 Ultra:

550 млрд параметров всего, из них 55 млрд активных на один проход
Гибридная архитектура Transformer–Mamba Mixture‑of‑Experts (MoE)
Контекст до 1 000 000 токенов
Формат NVFP4 для инференса
До 5 раз быстрее инференс для долгих агентных сценариев
До 30% ниже стоимость сложных agentic‑нагрузок по сравнению с плотными моделями такого же класса
Текст на вход и на выход, без мультимодальности

Nemotron 3 Ultra оптимизировали под формат NVFP4. Это низкая точность, заточенная под GPU NVIDIA, из‑за чего модель дешевле в размещении и быстрее на длинных диалогах.

На стороне AWS главное обновление — Nemotron 3 Ultra теперь можно развернуть через SageMaker JumpStart:

Один клик в интерфейсе SageMaker Studio
Или несколько строк кода через SageMaker Python SDK
Поддерживаемые инстансы: ml.p5en.48xlarge, ml.p5.48xlarge, ml.g7e.48xlarge

Важно: развёртывание создаёт endpoint SageMaker, который стоит денег, пока работает. GPU‑инстансы уровня ml.p5en.48xlarge обходятся в несколько долларов в час. Endpoint нужно удалять после тестов.

Как это работает

Nemotron 3 Ultra — это большая языковая модель с гибридной архитектурой Transformer–Mamba и Mixture‑of‑Experts.

Mixture‑of‑Experts и 550B / 55B параметров

Модель содержит 550 млрд параметров, но на один проход по сети активирует только 55 млрд. Это и есть MoE‑подход:

Внутри есть несколько «экспертов» — подсетей с разной специализацией
Специальный роутер выбирает, какие эксперты обрабатывают конкретный токен или фрагмент
Остальные параметры «спят» и не потребляют вычисления

За счёт этого Nemotron 3 Ultra даёт качество, близкое к очень большим плотным моделям, но требует меньше FLOPS на один запрос. Это особенно заметно на длинных сессиях с агентами, где запросов много и контекст огромный.

Transformer + Mamba

Модель сочетает классический Transformer с компонентами Mamba. Transformer хорошо работает с вниманием и сложными зависимостями в тексте, Mamba — с длинными последовательностями и эффективной обработкой.

Такой гибрид нужен, чтобы удерживать миллион токенов в контексте и не «захлебнуться» по памяти и скорости.

NVFP4 и ускоренный инференс

Nemotron 3 Ultra оптимизировали под формат NVFP4:

Это низкоразрядное представление чисел, разработанное NVIDIA для инференса
Меньше памяти на параметры и активации
Больше throughput на тех же GPU

В результате:

Инференс для долгих агентных сценариев — до 5 раз быстрее
Стоимость сложных agentic‑задач — до 30% ниже по сравнению с плотными моделями аналогичного класса

Интеграция с SageMaker JumpStart

SageMaker JumpStart даёт готовый каркас для развёртывания:

AWS держит контейнеры и инфраструктуру
Вы выбираете модель, тип инстанса и нажимаете Deploy
SageMaker создаёт endpoint, к которому можно стучаться из кода или через API

Это избавляет от ручной настройки серверов, CUDA, драйверов и фреймворков.

Что это значит для вас

Nemotron 3 Ultra — это не чат‑бот «как ChatGPT», а рабочая лошадка для автономных агентов и сложных пайплайнов.

Где Nemotron 3 Ultra сильна

Оркестраторы агентов

Если вы строите систему, где один «мастер‑агент» планирует задачу, вызывает другие агенты, ходит в инструменты и API, следит за состоянием:
- Миллион токенов контекста позволяет держать длинную историю действий
- MoE и NVFP4 помогают не улететь в космос по стоимости
Код‑агенты и DevTools

Для задач вроде:
- генерации и рефакторинга кода в крупных репозиториях
- автоматического тестирования и отладки
- многошаговых сценариев «сгенерируй → запусти → проанализируй лог → исправь»
Nemotron 3 Ultra может держать в памяти большую часть кода и историю всех итераций.
Глубокие исследования и аналитика

Если нужно:
- собрать и синтезировать информацию из множества источников
- удерживать длинную цепочку рассуждений
- возвращаться к старым частям диалога или документа
Миллион токенов помогает не резать контент на куски и не городить сложные схемы с RAG, хотя RAG всё равно может пригодиться.
Сложные бизнес‑процессы

Для автоматизации многошаговых процессов:
- заявки, проверки, согласования
- ветвления по условиям и обработка ошибок
- долгие цепочки вызовов внутренних сервисов
Агент может вести процесс от начала до конца, не теряя контекст.

Где Nemotron 3 Ultra не лучший выбор

Простой чат‑бот для сайта. Для FAQ и коротких ответов Nemotron 3 Ultra избыточна по ресурсам. Дешевле взять модель поменьше.
Мобильные и on‑prem сценарии без мощных GPU. Модель рассчитана на тяжёлые GPU‑инстансы в AWS. Для локального развёртывания она слишком крупная.
Если вам нужен мультимодальный ИИ (картинки, аудио, видео). Nemotron 3 Ultra работает только с текстом.

Доступность из России

Nemotron 3 Ultra доступна через AWS SageMaker JumpStart. Для работы нужен:

Аккаунт AWS
Доступ к регионам с SageMaker и поддерживаемым GPU

Если вы находитесь в России, доступ к AWS может потребовать VPN и оплату зарубежной картой или через юридическое лицо с зарубежной инфраструктурой. Это нужно учитывать при планировании проекта.

Место на рынке

Nemotron 3 Ultra — это представитель тяжёлых LLM, заточенных под агентные нагрузки и огромный контекст. В оригинальном материале нет прямых сравнений с GPT‑4o, Claude 3 или другими моделями, но есть чёткие ориентиры внутри класса больших моделей:

По контексту: до 1 000 000 токенов — это уровень самых длинных контекстов среди LLM.
По архитектуре: гибрид Transformer–Mamba с MoE и NVFP4 делает упор на эффективность при огромном размере.
По экономике: до 30% экономии на сложных agentic‑нагрузках по сравнению с плотными моделями аналогичного качества.

Главный конкурент Nemotron 3 Ultra — не конкретная модель, а подход «использовать одну большую плотную модель для всего». NVIDIA предлагает альтернативу: очень крупная, но разреженная MoE‑модель, которая дешевле и быстрее на длинных сессиях.

С точки зрения инфраструктуры Nemotron 3 Ultra логично рассматривать, если вы уже в экосистеме AWS и строите:

агентные платформы поверх SageMaker
комплексные пайплайны с оркестрацией, где счёт идёт на сотни шагов и часов работы

Если вы только экспериментируете с LLM и у вас нет тяжёлых агентных сценариев, Nemotron 3 Ultra будет излишне дорогой стартовой точкой.

Установка / Как запустить

Предварительные условия

Перед началом нужно:

Аккаунт AWS
Права на использование SageMaker JumpStart
Квоты на GPU‑инстансы, например:
- ml.p5en.48xlarge
- ml.p5.48xlarge
- ml.g7e.48xlarge

Развёртывание создаёт endpoint SageMaker. Он стоит денег, пока работает. После тестов endpoint нужно удалить.

Запуск через SageMaker Studio

Откройте Amazon SageMaker Studio.
В левой панели навигации выберите SageMaker JumpStart.
В поиске найдите Nemotron 3 Ultra.
Откройте карточку модели.
Нажмите Deploy.
Выберите тип инстанса (поддерживаются ml.p5en.48xlarge, ml.p5.48xlarge, ml.g7e.48xlarge).
Проверьте настройки деплоя (по умолчанию обычно достаточно).
Нажмите Deploy, чтобы создать endpoint.
Дождитесь статуса InService, затем можно отправлять запросы.

Запуск через SageMaker Python SDK

Полный пример из источника:

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",  # Verify in SageMaker JumpStart model card
    role=sagemaker.get_execution_role(),  # Your SageMaker execution role ARN
)

predictor = model.deploy(accept_eula=True)

Запросы к модели (инференс)

Пример запроса, ориентированного на агентные сценарии:

payload = {
    "messages": [{
        "role": "user",
        "content": "Break this task into subtasks, identify which tools are needed, and run them in sequence."
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Здесь модель получает инструкцию спланировать задачу, разбить её на подзадачи и выполнить их с помощью инструментов. Именно под такие длинные многошаговые сценарии Nemotron 3 Ultra и оптимизировали.

Очистка ресурсов

Когда закончите эксперименты, удалите endpoint, чтобы не платить за простаивающий GPU:

predictor.delete_endpoint()

Итог

Nemotron 3 Ultra в SageMaker JumpStart — это крупная открытая LLM от NVIDIA, заточенная под долгоживущих автономных агентов:

550B параметров всего, 55B активных
до 1M токенов контекста
до 5x ускорение инференса и до 30% экономии на сложных agentic‑нагрузках

Если вы строите серьёзные агентные системы на AWS, оркестраторы, код‑агентов или сложные бизнес‑пайплайны, Nemotron 3 Ultra — один из кандидатов для продакшена. Для простых чат‑ботов и лёгких сценариев лучше посмотреть на модели поменьше.