Nvidia Nemotron 3 Super: открытая 120‑миллиардная модель для ИИ‑агентов и длинных контекстов — VogueTech

Что появилось / что изменилось

Nvidia представила Nemotron 3 Super — крупную языковую модель с открытым исходным кодом для ИИ‑агентов и работы с большими массивами данных.

Ключевые характеристики:

120 млрд параметров.
Гибридная архитектура Mamba‑Transformer.
Поддержка контекста до 1 000 000 токенов.
Предварительное обучение в формате NVFP4.
Слои MTP для нативного спекулятивного декодирования.

Производительность (по данным Nvidia):

При настройке на 8000 токенов на входе и 16 000 токенов на выходе Nemotron 3 Super выдаёт до 2,2 раза более высокую пропускную способность, чем GPT‑OSS‑120B.
В тех же условиях модель до 7,5 раза быстрее, чем Qwen3.5‑122B.
По точности Nemotron 3 Super показывает более высокие или сопоставимые результаты с GPT‑OSS‑120B и Qwen3.5‑122B в ряде тестов.
На бенчмарке RULER при длине контекста 1 млн токенов Nemotron 3 Super обходит GPT‑OSS‑120B и Qwen3.5‑122B.

Nvidia позиционирует Nemotron 3 Super как основу для ИИ‑агентов, которые должны разбирать длинные документы, вызывать инструменты и помогать в разработке ПО.

Как это работает

Nemotron 3 Super сочетает два подхода: Transformer и Mamba.

Transformer хорошо справляется с генерацией текста и сложными зависимостями между токенами.
Mamba оптимизирована для последовательной обработки и даёт выигрыш в скорости и эффективности на длинных контекстах.

Гибридная архитектура Mamba‑Transformer позволяет обрабатывать до миллиона токенов без полного «захлебывания» по памяти и времени отклика.

Модель использует:

Метод скрытого моделирования (masked modeling) для повышения точности. Это улучшает понимание структуры текста и контекста.
Слои MTP (Multi‑Token Prediction) для нативного спекулятивного декодирования. Модель сразу предсказывает несколько токенов вперёд, а затем быстро проверяет их корректность. За счёт этого вывод ускоряется без сильной потери качества.
Формат NVFP4 при предварительном обучении. Это низкоточный числовой формат, который уменьшает требования к памяти и увеличивает скорость на GPU Nvidia, сохраняя приемлемую точность.

Всё это заточено под запуск на инфраструктуре Nvidia, где Nemotron 3 Super может выдавать высокий токен‑throughput и работать с очень длинными запросами.

Что это значит для вас

Nemotron 3 Super — инструмент для тех, кто строит свои ИИ‑сервисы, а не просто пользуется готовыми чат‑ботами.

Где модель полезна:

Разработка программного обеспечения. Подходит для ИИ‑ассистентов разработчика: разбор больших кодовых баз, генерация патчей, объяснение изменений, поиск багов в длинных логах.
Анализ длинных документов. Юридические документы, технические спецификации, большие отчёты, документация проектов. Миллион токенов позволяет скормить модели почти весь архив по теме.
ИИ‑агенты с вызовом инструментов. Nemotron 3 Super можно ставить в центр агентной системы, где модель: читает контекст, решает, какой инструмент вызвать (поиск, БД, API), и собирает итоговый ответ.

Кому это особенно интересно:

Командам, которые уже используют GPU Nvidia и хотят развернуть свою LLM локально или в частном облаке.
Разработчикам продуктов, где важен длинный контекст и высокая пропускная способность при генерации.
Исследователям, которым нужна крупная открытая модель для экспериментов с агентами и инструментами.

Где Nemotron 3 Super вряд ли пригодится:

Обычным пользователям, которым нужен просто «чат с ИИ». Проще использовать готовые сервисы вроде GPT‑4o или Claude 3.5.
Маленьким командам без доступа к мощным GPU — 120‑миллиардная модель требует серьёзных ресурсов.

Если вы находитесь в России, доступ к облакам Nvidia и сопутствующей экосистеме может потребовать VPN и юридическую аккуратность. Зато модель с открытым исходным кодом можно развернуть на собственной инфраструктуре, если у вас есть нужное железо.

Место на рынке

Nvidia напрямую сравнивает Nemotron 3 Super с двумя крупными открытыми моделями сопоставимого размера: GPT‑OSS‑120B и Qwen3.5‑122B.

По данным Nvidia:

Скорость вывода. Nemotron 3 Super до 2,2 раза быстрее GPT‑OSS‑120B и до 7,5 раза быстрее Qwen3.5‑122B при 8000 токенов на входе и 16 000 на выходе.
Точность. Модель показывает более высокую или сопоставимую точность с GPT‑OSS‑120B и Qwen3.5‑122B на ряде задач.
Длина контекста. Все три модели поддерживают длинные контексты, но Nemotron 3 Super демонстрирует более высокие результаты на RULER при длине контекста 1 млн токенов.

По сравнению с закрытыми моделями вроде GPT‑4o или Claude 3.5 Nemotron 3 Super интересна именно как открытая 120‑миллиардная модель, оптимизированная под GPU Nvidia и сверхдлинные контексты. Это скорее выбор для тех, кто строит свою инфраструктуру и ИИ‑агентов, чем для массового использования через веб‑интерфейс.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также