- Дата публикации
NVIDIA Nemotron 3 Ultra вышла в Amazon SageMaker JumpStart: миллион токенов и упор на автономных агентов
Что нового
AWS и NVIDIA запустили Nemotron 3 Ultra в Amazon SageMaker JumpStart в режиме day‑zero — модель доступна сразу и разворачивается в один клик.
Ключевые характеристики Nemotron 3 Ultra:
- 550 млрд параметров всего, из них 55 млрд активных на один проход
- Гибридная архитектура Transformer–Mamba Mixture‑of‑Experts (MoE)
- Контекст до 1 000 000 токенов
- Формат NVFP4 для инференса
- До 5 раз быстрее инференс для долгих агентных сценариев
- До 30% ниже стоимость сложных agentic‑нагрузок по сравнению с плотными моделями такого же класса
- Текст на вход и на выход, без мультимодальности
Nemotron 3 Ultra оптимизировали под формат NVFP4. Это низкая точность, заточенная под GPU NVIDIA, из‑за чего модель дешевле в размещении и быстрее на длинных диалогах.
На стороне AWS главное обновление — Nemotron 3 Ultra теперь можно развернуть через SageMaker JumpStart:
- Один клик в интерфейсе SageMaker Studio
- Или несколько строк кода через SageMaker Python SDK
- Поддерживаемые инстансы:
ml.p5en.48xlarge,ml.p5.48xlarge,ml.g7e.48xlarge
Важно: развёртывание создаёт endpoint SageMaker, который стоит денег, пока работает. GPU‑инстансы уровня ml.p5en.48xlarge обходятся в несколько долларов в час. Endpoint нужно удалять после тестов.
Как это работает
Nemotron 3 Ultra — это большая языковая модель с гибридной архитектурой Transformer–Mamba и Mixture‑of‑Experts.
Mixture‑of‑Experts и 550B / 55B параметров
Модель содержит 550 млрд параметров, но на один проход по сети активирует только 55 млрд. Это и есть MoE‑подход:
- Внутри есть несколько «экспертов» — подсетей с разной специализацией
- Специальный роутер выбирает, какие эксперты обрабатывают конкретный токен или фрагмент
- Остальные параметры «спят» и не потребляют вычисления
За счёт этого Nemotron 3 Ultra даёт качество, близкое к очень большим плотным моделям, но требует меньше FLOPS на один запрос. Это особенно заметно на длинных сессиях с агентами, где запросов много и контекст огромный.
Transformer + Mamba
Модель сочетает классический Transformer с компонентами Mamba. Transformer хорошо работает с вниманием и сложными зависимостями в тексте, Mamba — с длинными последовательностями и эффективной обработкой.
Такой гибрид нужен, чтобы удерживать миллион токенов в контексте и не «захлебнуться» по памяти и скорости.
NVFP4 и ускоренный инференс
Nemotron 3 Ultra оптимизировали под формат NVFP4:
- Это низкоразрядное представление чисел, разработанное NVIDIA для инференса
- Меньше памяти на параметры и активации
- Больше throughput на тех же GPU
В результате:
- Инференс для долгих агентных сценариев — до 5 раз быстрее
- Стоимость сложных agentic‑задач — до 30% ниже по сравнению с плотными моделями аналогичного класса
Интеграция с SageMaker JumpStart
SageMaker JumpStart даёт готовый каркас для развёртывания:
- AWS держит контейнеры и инфраструктуру
- Вы выбираете модель, тип инстанса и нажимаете Deploy
- SageMaker создаёт endpoint, к которому можно стучаться из кода или через API
Это избавляет от ручной настройки серверов, CUDA, драйверов и фреймворков.
Что это значит для вас
Nemotron 3 Ultra — это не чат‑бот «как ChatGPT», а рабочая лошадка для автономных агентов и сложных пайплайнов.
Где Nemotron 3 Ultra сильна
-
Оркестраторы агентов
Если вы строите систему, где один «мастер‑агент» планирует задачу, вызывает другие агенты, ходит в инструменты и API, следит за состоянием:
- Миллион токенов контекста позволяет держать длинную историю действий
- MoE и NVFP4 помогают не улететь в космос по стоимости
-
Код‑агенты и DevTools
Для задач вроде:
- генерации и рефакторинга кода в крупных репозиториях
- автоматического тестирования и отладки
- многошаговых сценариев «сгенерируй → запусти → проанализируй лог → исправь»
Nemotron 3 Ultra может держать в памяти большую часть кода и историю всех итераций.
-
Глубокие исследования и аналитика
Если нужно:
- собрать и синтезировать информацию из множества источников
- удерживать длинную цепочку рассуждений
- возвращаться к старым частям диалога или документа
Миллион токенов помогает не резать контент на куски и не городить сложные схемы с RAG, хотя RAG всё равно может пригодиться.
-
Сложные бизнес‑процессы
Для автоматизации многошаговых процессов:
- заявки, проверки, согласования
- ветвления по условиям и обработка ошибок
- долгие цепочки вызовов внутренних сервисов
Агент может вести процесс от начала до конца, не теряя контекст.
Где Nemotron 3 Ultra не лучший выбор
- Простой чат‑бот для сайта. Для FAQ и коротких ответов Nemotron 3 Ultra избыточна по ресурсам. Дешевле взять модель поменьше.
- Мобильные и on‑prem сценарии без мощных GPU. Модель рассчитана на тяжёлые GPU‑инстансы в AWS. Для локального развёртывания она слишком крупная.
- Если вам нужен мультимодальный ИИ (картинки, аудио, видео). Nemotron 3 Ultra работает только с текстом.
Доступность из России
Nemotron 3 Ultra доступна через AWS SageMaker JumpStart. Для работы нужен:
- Аккаунт AWS
- Доступ к регионам с SageMaker и поддерживаемым GPU
Если вы находитесь в России, доступ к AWS может потребовать VPN и оплату зарубежной картой или через юридическое лицо с зарубежной инфраструктурой. Это нужно учитывать при планировании проекта.
Место на рынке
Nemotron 3 Ultra — это представитель тяжёлых LLM, заточенных под агентные нагрузки и огромный контекст. В оригинальном материале нет прямых сравнений с GPT‑4o, Claude 3 или другими моделями, но есть чёткие ориентиры внутри класса больших моделей:
- По контексту: до 1 000 000 токенов — это уровень самых длинных контекстов среди LLM.
- По архитектуре: гибрид Transformer–Mamba с MoE и NVFP4 делает упор на эффективность при огромном размере.
- По экономике: до 30% экономии на сложных agentic‑нагрузках по сравнению с плотными моделями аналогичного качества.
Главный конкурент Nemotron 3 Ultra — не конкретная модель, а подход «использовать одну большую плотную модель для всего». NVIDIA предлагает альтернативу: очень крупная, но разреженная MoE‑модель, которая дешевле и быстрее на длинных сессиях.
С точки зрения инфраструктуры Nemotron 3 Ultra логично рассматривать, если вы уже в экосистеме AWS и строите:
- агентные платформы поверх SageMaker
- комплексные пайплайны с оркестрацией, где счёт идёт на сотни шагов и часов работы
Если вы только экспериментируете с LLM и у вас нет тяжёлых агентных сценариев, Nemotron 3 Ultra будет излишне дорогой стартовой точкой.
Установка / Как запустить
Предварительные условия
Перед началом нужно:
- Аккаунт AWS
- Права на использование SageMaker JumpStart
- Квоты на GPU‑инстансы, например:
ml.p5en.48xlargeml.p5.48xlargeml.g7e.48xlarge
Развёртывание создаёт endpoint SageMaker. Он стоит денег, пока работает. После тестов endpoint нужно удалить.
Запуск через SageMaker Studio
- Откройте Amazon SageMaker Studio.
- В левой панели навигации выберите SageMaker JumpStart.
- В поиске найдите Nemotron 3 Ultra.
- Откройте карточку модели.
- Нажмите Deploy.
- Выберите тип инстанса (поддерживаются
ml.p5en.48xlarge,ml.p5.48xlarge,ml.g7e.48xlarge). - Проверьте настройки деплоя (по умолчанию обычно достаточно).
- Нажмите Deploy, чтобы создать endpoint.
- Дождитесь статуса InService, затем можно отправлять запросы.
Запуск через SageMaker Python SDK
Полный пример из источника:
import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4", # Verify in SageMaker JumpStart model card
role=sagemaker.get_execution_role(), # Your SageMaker execution role ARN
)
predictor = model.deploy(accept_eula=True)
Запросы к модели (инференс)
Пример запроса, ориентированного на агентные сценарии:
payload = {
"messages": [{
"role": "user",
"content": "Break this task into subtasks, identify which tools are needed, and run them in sequence."
}],
"max_tokens": 20480,
"temperature": 0.6,
"top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Здесь модель получает инструкцию спланировать задачу, разбить её на подзадачи и выполнить их с помощью инструментов. Именно под такие длинные многошаговые сценарии Nemotron 3 Ultra и оптимизировали.
Очистка ресурсов
Когда закончите эксперименты, удалите endpoint, чтобы не платить за простаивающий GPU:
predictor.delete_endpoint()
Итог
Nemotron 3 Ultra в SageMaker JumpStart — это крупная открытая LLM от NVIDIA, заточенная под долгоживущих автономных агентов:
- 550B параметров всего, 55B активных
- до 1M токенов контекста
- до 5x ускорение инференса и до 30% экономии на сложных agentic‑нагрузках
Если вы строите серьёзные агентные системы на AWS, оркестраторы, код‑агентов или сложные бизнес‑пайплайны, Nemotron 3 Ultra — один из кандидатов для продакшена. Для простых чат‑ботов и лёгких сценариев лучше посмотреть на модели поменьше.