Cohere открыла North Mini Code: 30B MoE‑модель для быстрых код‑агентов под Apache 2.0 — VogueTech

Что нового

Cohere выпустила North Mini Code — открытый агентный кодовый LLM с лицензией Apache 2.0.

Ключевые характеристики:

Архитектура: Mixture-of-Experts (MoE)
Размер: 30 млрд параметров всего, из них 3 млрд активных на каждый токен
Контекст: до 256K токенов общего контекста, максимум 64K токенов генерации за раз
Оптимизация: кодогенерация, агентная разработка ПО, терминальные задачи
Лицензия: Apache 2.0 (можно использовать в коммерческих продуктах, менять, форкать)
Доступность: веса на Hugging Face, inference через Cohere API, Model Vault и OpenRouter, интеграция с OpenCode
Железо (минимум): одна NVIDIA H100 в FP8

Производительность и скорость:

33,4 балла в Artificial Analysis Coding Index — конкурентный результат среди моделей подобного размера
До 2,8× выше пропускная способность вывода, чем у Devstral Small 2, при одинаковом железе и уровне параллелизма
–30% межтокенная задержка (inter-token latency) по сравнению с Devstral Small 2
Время до первого токена (TTFT) у Devstral Small 2 немного лучше, но разрыв небольшой

North Mini Code — первый открытый кодовый агент от Cohere и старт новой линейки моделей, заточенных под «суверенный» ИИ: когда разработчик контролирует инфраструктуру и веса, а не только API.

Как это работает

Mixture-of-Experts: 30B параметров, но считают только 3B

North Mini Code использует архитектуру Mixture-of-Experts (MoE). Внутри — несколько «экспертов» (подсетей), но при генерации токена активна только часть параметров:

всего параметров: 30B
одновременно активных: 3B

За счёт роутера модель выбирает, каких экспертов подключить к каждому токену. В итоге:

качество ближе к крупной модели (30B)
затраты на вычисления и память — ближе к компактной (3B активных)

Это даёт возможность запускать North Mini Code на более доступном железе, чем классические плотные 30B‑модели, и всё равно держать высокую скорость генерации.

Глубокий контекст и длинные сессии

Модель поддерживает 256K токенов контекста. Это значит, что вы можете:

скормить ей большой репозиторий кода
добавить документацию, логи, конфиги
работать в рамках одной длинной сессии без постоянного пересборa промпта

Максимальная длина одного ответа — 64K токенов. Этого достаточно для:

генерации крупных файлов
сложных рефакторингов с подробными комментариями
детальных отчётов по ревью кода

Агентные сценарии

North Mini Code обучили не только на «просто коде», но и на задачах, где модель выступает как кодовый агент:

понимает и оркестрирует под‑агентов (например, отдельный агент для тестов, отдельный — для документации)
умеет строить карту архитектуры системы: модули, зависимости, точки интеграции
поддерживает код‑ревью: поиск ошибок, анти‑паттернов, рискованных изменений
работает с терминальными задачами: команды, сценарии, пайплайны

За счёт этого North Mini Code можно не только просить написать функцию, но и поручать ей цепочки действий: «разбери проект, предложи план рефакторинга, напиши патчи, сгенерируй тесты».

Скорость и стоимость владения

Cohere явно делает упор на скорость и TCO (total cost of ownership):

до 2,8× выше throughput, чем у Devstral Small 2, при одинаковых условиях
30% меньше межтокенная задержка, то есть токены идут более ровным потоком
TTFT у Devstral Small 2 немного лучше, но в типичных задачах кодогенерации ключевую роль играет именно скорость потока, а не первый токен

Для разработчика это означает:

быстрее проходят CI‑боты и код‑агенты
можно обслуживать больше параллельных запросов на том же железе
дешевле запускать внутренние инструменты разработки

Что это значит для вас

Для чего North Mini Code подходит

1. Автодополнение и генерация кода

генерация функций, классов, модулей
шаблоны сервисов, CLI‑утилит, скриптов
написание тестов, моков, фикстур

2. Агентная разработка ПО

боты‑ревьюеры в GitHub/GitLab
агенты, которые анализируют репозиторий, пишут план работ и патчи
ассистенты, которые разбираются в архитектуре большого монорепо

3. Работа с терминалом и инфраструктурой

генерация команд для CI/CD, Docker, Kubernetes
подготовка скриптов миграций, деплоя, бэкапов
автоматизация рутинных операционных задач

4. Локальные и on‑prem инсталляции

North Mini Code удобно разворачивать:

внутри компании, рядом с кодом и приватными репозиториями
в изолированных контурах, где нельзя использовать внешние SaaS‑API
как часть собственных код‑платформ и IDE‑плагинов

Лицензия Apache 2.0 позволяет:

встраивать модель в коммерческие продукты
модифицировать и дообучать её под свои домены
не раскрывать свой форк, если этого не требует ваша политика

Где модель не лучшая идея

Слабое железо. Формально нужен минимум 1× H100 @ FP8. На менее мощных GPU модель можно попытаться запустить с квантованием и оптимизациями, но Cohere ориентируется именно на этот класс железа. Если у вас только потребительские карты, придётся потрудиться с оптимизацией или использовать облако.
Нелокализованные сценарии. В тексте релиза нет фокуса на конкретные языки, но North Mini Code в первую очередь нацелена на код и терминальные задачи, а не на общие разговорные сценарии. Для чистого чат‑бота без кода лучше подойдут модели общего назначения.
Онлайн‑доступ без ограничений. Доступ через Cohere API, Model Vault, OpenRouter и Hugging Face может потребовать регистрации, а в некоторых регионах — VPN и обход ограничений доступа к зарубежным сервисам. Если вы работаете из России, стоит заранее проверить доступность этих платформ.

Если вы разработчик или тимлид

Нужен код‑агент, который можно держать у себя, а не только через внешний API — North Mini Code подходит.
Вы строите внутренние инструменты разработки (бот‑ревьюер, ассистент в IDE, автогенерация PR) — модель даёт хороший баланс качества и стоимости.
Важно не зависеть от одного вендора и иметь доступ к весам — Apache 2.0 и открытая публикация на Hugging Face решают задачу.

Если же вы ищете «одну большую модель на всё» (код, тексты, мультимодальность) и вас устраивает жизнь только в облачном API, North Mini Code — скорее специализированный инструмент, а не универсальный ассистент.

Место на рынке

Cohere явно нацеливает North Mini Code на сегмент средних открытых кодовых моделей с акцентом на агентность и скорость.

Из явных сравнений в релизе:

Devstral Small 2 — референс для скорости
- North Mini Code даёт до 2,8× больше throughput при тех же условиях
- межтокенная задержка ниже на 30%, ответы идут ровнее и быстрее
- TTFT у Devstral Small 2 немного лучше, но итоговая скорость вывода у North Mini Code выше

По качеству на кодовых бенчмарках и задачах агентной разработки North Mini Code:

показывает конкурентные результаты среди моделей своего класса
набирает 33,4 в Artificial Analysis Coding Index, что ставит её в один ряд с другими средними кодовыми моделями

Главные отличия North Mini Code на фоне других open‑source кодовых моделей:

MoE‑архитектура: 30B параметров, но 3B активных — хороший компромисс между качеством и затратами
256K контекста — это больше, чем у многих открытых кодовых моделей, и критично для больших репозиториев
лицензия Apache 2.0 — максимально лояльная для коммерческого использования
заточка под агентные сценарии: работа с под‑агентами, архитектурой, ревью и терминалом

Если сравнивать стратегически, Cohere делает ставку на «суверенный» стек: открытые веса, on‑prem, минимальная зависимость от вендора. Для компаний, которым важно держать ИИ‑инфраструктуру под полным контролем, это сильный аргумент.

Как начать пользоваться

Где взять North Mini Code

Hugging Face — скачивание весов для локального и on‑prem развёртывания
Cohere API — управляемый доступ к модели через облачный API
Cohere Model Vault — полностью управляемая платформа для inference
OpenRouter — ещё один способ вызвать модель через API
OpenCode — среда для код‑агентов, с которой North Mini Code обучали на совместимость

Модель доступна бесплатно на Hugging Face и в Model Vault (для старта), дальше условия зависят от тарифа и инфраструктуры.

Базовый сценарий запуска

Релиз не даёт конкретных примеров кода, но общий путь такой:

Скачать веса с Hugging Face и запустить модель в своём окружении (на H100 или в облаке с поддержкой FP8).
Или подключиться к Cohere API / Model Vault / OpenRouter, указав North Mini Code как целевую модель.
Использовать модель в своём код‑агенте, IDE‑плагине или CI‑боте.

Для детальных инструкций Cohere предлагает документацию с:

техническими спецификациями модели
гайдами по деплою на разных платформах
готовыми «кукбуками» по интеграции в код‑агентов и пайплайны разработки

Если вы уже используете OpenCode или похожие фреймворки, North Mini Code должна работать «из коробки» или с минимальными правками конфига.

North Mini Code — понятный шаг Cohere в сторону открытых код‑агентов: MoE‑архитектура, длинный контекст, фокус на скорости и лицензия Apache 2.0. Для команд, которые хотят строить собственную агентную разработку и держать ИИ‑инфраструктуру под контролем, это один из самых интересных новых вариантов в open‑source‑экосистеме.