Nemotron 3 Nano 4B: компактный 4B‑LLM для локального ИИ на RTX и Jetson — VogueTech

Что появилось / что изменилось

NVIDIA представила Nemotron 3 Nano 4B — самый компактный участник линейки Nemotron 3. Это 4‑миллиардная языковая модель с гибридной архитектурой Mamba + Transformer, заточенная под запуск «на месте», а не в облаке.

Ключевые факты:

4 млрд параметров — вдвое меньше, чем у Nemotron Nano 9B v2, из которого её сжали.
Запуск на любых платформах с GPU NVIDIA: GeForce RTX, NVIDIA DGX Spark, Jetson Thor и Jetson Orin Nano.
Оптимизация под локальных ассистентов и персонажей: домашние и офисные агенты, игровые помощники, боты для конкретных задач.
Бенчмарки в своём классе размера:
- Instruction following (IFBench, IFEval) — один из лучших результатов среди 4B‑моделей.
- Игровой интеллект и агентность (Orak, игры Super Mario, Darkest Dungeon, Stardew Valley) — тоже топ в классе 4B.
- VRAM: самый низкий пик потребления памяти в своём классе при низких и высоких настройках ISL/OSL.
- Задержка: минимальный TTFT (time‑to‑first‑token) среди моделей такого размера при высоком ISL.
Все замеры эффективности делали на RTX 4070 через Llama.cpp, с квантованием Q4_K_M.
Модель открытая: её можно скачивать, дообучать и адаптировать под свои домены.

Отдельно NVIDIA подчёркивает: Nemotron 3 Nano 4B хорошо работает с инструментами (tool use) и сравнительно аккуратно обращается с фактами, снижая количество галлюцинаций для задач на устройстве.

Как это работает

Nemotron 3 Nano 4B — результат агрессивного, но управляемого сжатия Nemotron Nano 9B v2 с помощью фреймворка Nemotron Elastic.

Вместо классической схемы «сначала обрезать модель, потом долго доучивать» NVIDIA обучила специальный роутер, который во время обучения решает, какие части сети можно выкинуть без сильной потери качества.

Роутер получает несколько «ось» для компрессии:

Mamba‑головы — уменьшение числа SSM‑голов.
Скрытое (embedding) измерение — сужение ширины представлений.
FFN‑каналы — вырезание нейронов в MLP‑слоях.
Глубина — удаление целых слоёв.

Перед этим NVIDIA расставила приоритеты:

Для ширины (головы, каналы, нейроны) использовали важность по активациям: чем активнее компонент, тем выше его ранг.
Для глубины посчитали важность слоя по MSE: по очереди удаляли слой и смотрели, как меняются выходные логиты полной модели.

Роутер должен был уложиться в бюджет 4 млрд параметров. В итоге он пришёл к такой архитектуре:

Глубина: с 56 слоёв (27 Mamba, 4 attention, 25 MLP) до 42 слоёв (21 Mamba, 4 attention, 17 MLP).
Mamba‑головы: с 128 до 96.
FFN intermediate: с 15680 до 12544.
Embedding: с 4480 до 3136.

После выбора архитектуры NVIDIA провела двухшаговую дистилляцию: сжатую модель доучили на предобучающих и пост‑тренировочных данных Nemotron Nano 9B v2. Цель — вернуть как можно больше точности родительской 9B‑модели и сохранить её логические навыки.

От Nemotron 3 Nano 4B ждут сильного поведения в «гибридном» рассуждении: часть логики явно унаследована от 9B‑родителя, часть — от нового рецепта пост‑тренировки из Nemotron 3, который помогает решать задачи даже без явного «chain‑of‑thought».

Что это значит для вас

Nemotron 3 Nano 4B рассчитана на тех, кто хочет локальный ИИ без постоянного доступа к облаку.

Где модель особенно полезна:

Домашний или офисный ассистент на ПК с RTX. Планирование задач, ответы на вопросы, простая автоматизация через интеграцию с инструментами.
Игровые агенты. Orak‑бенчмарк с Super Mario, Darkest Dungeon и Stardew Valley показывает, что 4B‑модель может уверенно управлять персонажами и принимать тактические решения.
Локальные боты на Jetson Thor / Jetson Orin Nano. Роботы, терминалы, промышленные панели, где важны задержка и приватность.
Корпоративные ассистенты на DGX Spark. Внутренние чат‑боты и агенты, которые работают с закрытыми данными без вывода в облако.

Чего от неё ждать не стоит:

Это не замена тяжёлым моделям уровня GPT‑5 по качеству рассуждений на сложных задачах.
4 млрд параметров — это про скорость и компактность, а не про глубокий анализ длинных юридических документов или научных статей.

Модель открытая: вы можете скачать веса, развернуть их на своём железе и дообучить под доменную лексику — от медицины до логистики. Для России это плюс: локальный запуск не зависит от стабильности доступа к зарубежным облакам. Но для скачивания с западных платформ может потребоваться VPN и аккаунт, который эти платформы принимают.

Если у вас уже есть ПК с RTX 4070 или похожей картой, Nemotron 3 Nano 4B — удобный вариант для экспериментов с локальными агентами и прототипами продуктов без ежемесячных платежей за API.

Место на рынке

Nemotron 3 Nano 4B играет в сегменте компактных LLM на 4 млрд параметров. NVIDIA делает ставку на три вещи: гибридную Mamba‑Transformer архитектуру, агрессивное сжатие через Nemotron Elastic и запуск на своём железе.

По сухим фактам из бенчмарков:

В instruction following (IFBench, IFEval) Nemotron 3 Nano 4B держится на уровне лучших 4B‑моделей.
В игровых задачах (Orak, Super Mario / Darkest Dungeon / Stardew Valley) модель показывает один из лучших результатов в своём классе.
По пику VRAM и времени до первого токена на RTX 4070 (Llama.cpp, Q4_K_M) Nemotron 3 Nano 4B занимает лидирующие позиции среди моделей такого же размера.

Прямых численных сравнений с конкретными конкурентами NVIDIA не приводит. Но позиционирование прозрачно: это компактный, открытый 4B‑движок, который хорошо чувствует себя на GeForce RTX, Jetson и Spark и закрывает сценарии, где важны низкая задержка, приватность и возможность тонкой настройки под свою задачу.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также