- Дата публикации
Nvidia Nemotron 3 Super: открытая 120‑миллиардная модель для ИИ‑агентов и длинных контекстов
Что появилось / что изменилось
Nvidia представила Nemotron 3 Super — крупную языковую модель с открытым исходным кодом для ИИ‑агентов и работы с большими массивами данных.
Ключевые характеристики:
- 120 млрд параметров.
- Гибридная архитектура Mamba‑Transformer.
- Поддержка контекста до 1 000 000 токенов.
- Предварительное обучение в формате NVFP4.
- Слои MTP для нативного спекулятивного декодирования.
Производительность (по данным Nvidia):
- При настройке на 8000 токенов на входе и 16 000 токенов на выходе Nemotron 3 Super выдаёт до 2,2 раза более высокую пропускную способность, чем GPT‑OSS‑120B.
- В тех же условиях модель до 7,5 раза быстрее, чем Qwen3.5‑122B.
- По точности Nemotron 3 Super показывает более высокие или сопоставимые результаты с GPT‑OSS‑120B и Qwen3.5‑122B в ряде тестов.
- На бенчмарке RULER при длине контекста 1 млн токенов Nemotron 3 Super обходит GPT‑OSS‑120B и Qwen3.5‑122B.
Nvidia позиционирует Nemotron 3 Super как основу для ИИ‑агентов, которые должны разбирать длинные документы, вызывать инструменты и помогать в разработке ПО.
Как это работает
Nemotron 3 Super сочетает два подхода: Transformer и Mamba.
- Transformer хорошо справляется с генерацией текста и сложными зависимостями между токенами.
- Mamba оптимизирована для последовательной обработки и даёт выигрыш в скорости и эффективности на длинных контекстах.
Гибридная архитектура Mamba‑Transformer позволяет обрабатывать до миллиона токенов без полного «захлебывания» по памяти и времени отклика.
Модель использует:
- Метод скрытого моделирования (masked modeling) для повышения точности. Это улучшает понимание структуры текста и контекста.
- Слои MTP (Multi‑Token Prediction) для нативного спекулятивного декодирования. Модель сразу предсказывает несколько токенов вперёд, а затем быстро проверяет их корректность. За счёт этого вывод ускоряется без сильной потери качества.
- Формат NVFP4 при предварительном обучении. Это низкоточный числовой формат, который уменьшает требования к памяти и увеличивает скорость на GPU Nvidia, сохраняя приемлемую точность.
Всё это заточено под запуск на инфраструктуре Nvidia, где Nemotron 3 Super может выдавать высокий токен‑throughput и работать с очень длинными запросами.
Что это значит для вас
Nemotron 3 Super — инструмент для тех, кто строит свои ИИ‑сервисы, а не просто пользуется готовыми чат‑ботами.
Где модель полезна:
- Разработка программного обеспечения. Подходит для ИИ‑ассистентов разработчика: разбор больших кодовых баз, генерация патчей, объяснение изменений, поиск багов в длинных логах.
- Анализ длинных документов. Юридические документы, технические спецификации, большие отчёты, документация проектов. Миллион токенов позволяет скормить модели почти весь архив по теме.
- ИИ‑агенты с вызовом инструментов. Nemotron 3 Super можно ставить в центр агентной системы, где модель: читает контекст, решает, какой инструмент вызвать (поиск, БД, API), и собирает итоговый ответ.
Кому это особенно интересно:
- Командам, которые уже используют GPU Nvidia и хотят развернуть свою LLM локально или в частном облаке.
- Разработчикам продуктов, где важен длинный контекст и высокая пропускная способность при генерации.
- Исследователям, которым нужна крупная открытая модель для экспериментов с агентами и инструментами.
Где Nemotron 3 Super вряд ли пригодится:
- Обычным пользователям, которым нужен просто «чат с ИИ». Проще использовать готовые сервисы вроде GPT‑4o или Claude 3.5.
- Маленьким командам без доступа к мощным GPU — 120‑миллиардная модель требует серьёзных ресурсов.
Если вы находитесь в России, доступ к облакам Nvidia и сопутствующей экосистеме может потребовать VPN и юридическую аккуратность. Зато модель с открытым исходным кодом можно развернуть на собственной инфраструктуре, если у вас есть нужное железо.
Место на рынке
Nvidia напрямую сравнивает Nemotron 3 Super с двумя крупными открытыми моделями сопоставимого размера: GPT‑OSS‑120B и Qwen3.5‑122B.
По данным Nvidia:
- Скорость вывода. Nemotron 3 Super до 2,2 раза быстрее GPT‑OSS‑120B и до 7,5 раза быстрее Qwen3.5‑122B при 8000 токенов на входе и 16 000 на выходе.
- Точность. Модель показывает более высокую или сопоставимую точность с GPT‑OSS‑120B и Qwen3.5‑122B на ряде задач.
- Длина контекста. Все три модели поддерживают длинные контексты, но Nemotron 3 Super демонстрирует более высокие результаты на RULER при длине контекста 1 млн токенов.
По сравнению с закрытыми моделями вроде GPT‑4o или Claude 3.5 Nemotron 3 Super интересна именно как открытая 120‑миллиардная модель, оптимизированная под GPU Nvidia и сверхдлинные контексты. Это скорее выбор для тех, кто строит свою инфраструктуру и ИИ‑агентов, чем для массового использования через веб‑интерфейс.