- Дата публикации
Cohere открыла North Mini Code: 30B MoE‑модель для быстрых код‑агентов под Apache 2.0
Что нового
Cohere выпустила North Mini Code — открытый агентный кодовый LLM с лицензией Apache 2.0.
Ключевые характеристики:
- Архитектура: Mixture-of-Experts (MoE)
- Размер: 30 млрд параметров всего, из них 3 млрд активных на каждый токен
- Контекст: до 256K токенов общего контекста, максимум 64K токенов генерации за раз
- Оптимизация: кодогенерация, агентная разработка ПО, терминальные задачи
- Лицензия: Apache 2.0 (можно использовать в коммерческих продуктах, менять, форкать)
- Доступность: веса на Hugging Face, inference через Cohere API, Model Vault и OpenRouter, интеграция с OpenCode
- Железо (минимум): одна NVIDIA H100 в FP8
Производительность и скорость:
- 33,4 балла в Artificial Analysis Coding Index — конкурентный результат среди моделей подобного размера
- До 2,8× выше пропускная способность вывода, чем у Devstral Small 2, при одинаковом железе и уровне параллелизма
- –30% межтокенная задержка (inter-token latency) по сравнению с Devstral Small 2
- Время до первого токена (TTFT) у Devstral Small 2 немного лучше, но разрыв небольшой
North Mini Code — первый открытый кодовый агент от Cohere и старт новой линейки моделей, заточенных под «суверенный» ИИ: когда разработчик контролирует инфраструктуру и веса, а не только API.
Как это работает
Mixture-of-Experts: 30B параметров, но считают только 3B
North Mini Code использует архитектуру Mixture-of-Experts (MoE). Внутри — несколько «экспертов» (подсетей), но при генерации токена активна только часть параметров:
- всего параметров: 30B
- одновременно активных: 3B
За счёт роутера модель выбирает, каких экспертов подключить к каждому токену. В итоге:
- качество ближе к крупной модели (30B)
- затраты на вычисления и память — ближе к компактной (3B активных)
Это даёт возможность запускать North Mini Code на более доступном железе, чем классические плотные 30B‑модели, и всё равно держать высокую скорость генерации.
Глубокий контекст и длинные сессии
Модель поддерживает 256K токенов контекста. Это значит, что вы можете:
- скормить ей большой репозиторий кода
- добавить документацию, логи, конфиги
- работать в рамках одной длинной сессии без постоянного пересборa промпта
Максимальная длина одного ответа — 64K токенов. Этого достаточно для:
- генерации крупных файлов
- сложных рефакторингов с подробными комментариями
- детальных отчётов по ревью кода
Агентные сценарии
North Mini Code обучили не только на «просто коде», но и на задачах, где модель выступает как кодовый агент:
- понимает и оркестрирует под‑агентов (например, отдельный агент для тестов, отдельный — для документации)
- умеет строить карту архитектуры системы: модули, зависимости, точки интеграции
- поддерживает код‑ревью: поиск ошибок, анти‑паттернов, рискованных изменений
- работает с терминальными задачами: команды, сценарии, пайплайны
За счёт этого North Mini Code можно не только просить написать функцию, но и поручать ей цепочки действий: «разбери проект, предложи план рефакторинга, напиши патчи, сгенерируй тесты».
Скорость и стоимость владения
Cohere явно делает упор на скорость и TCO (total cost of ownership):
- до 2,8× выше throughput, чем у Devstral Small 2, при одинаковых условиях
- 30% меньше межтокенная задержка, то есть токены идут более ровным потоком
- TTFT у Devstral Small 2 немного лучше, но в типичных задачах кодогенерации ключевую роль играет именно скорость потока, а не первый токен
Для разработчика это означает:
- быстрее проходят CI‑боты и код‑агенты
- можно обслуживать больше параллельных запросов на том же железе
- дешевле запускать внутренние инструменты разработки
Что это значит для вас
Для чего North Mini Code подходит
1. Автодополнение и генерация кода
- генерация функций, классов, модулей
- шаблоны сервисов, CLI‑утилит, скриптов
- написание тестов, моков, фикстур
2. Агентная разработка ПО
- боты‑ревьюеры в GitHub/GitLab
- агенты, которые анализируют репозиторий, пишут план работ и патчи
- ассистенты, которые разбираются в архитектуре большого монорепо
3. Работа с терминалом и инфраструктурой
- генерация команд для CI/CD, Docker, Kubernetes
- подготовка скриптов миграций, деплоя, бэкапов
- автоматизация рутинных операционных задач
4. Локальные и on‑prem инсталляции
North Mini Code удобно разворачивать:
- внутри компании, рядом с кодом и приватными репозиториями
- в изолированных контурах, где нельзя использовать внешние SaaS‑API
- как часть собственных код‑платформ и IDE‑плагинов
Лицензия Apache 2.0 позволяет:
- встраивать модель в коммерческие продукты
- модифицировать и дообучать её под свои домены
- не раскрывать свой форк, если этого не требует ваша политика
Где модель не лучшая идея
- Слабое железо. Формально нужен минимум 1× H100 @ FP8. На менее мощных GPU модель можно попытаться запустить с квантованием и оптимизациями, но Cohere ориентируется именно на этот класс железа. Если у вас только потребительские карты, придётся потрудиться с оптимизацией или использовать облако.
- Нелокализованные сценарии. В тексте релиза нет фокуса на конкретные языки, но North Mini Code в первую очередь нацелена на код и терминальные задачи, а не на общие разговорные сценарии. Для чистого чат‑бота без кода лучше подойдут модели общего назначения.
- Онлайн‑доступ без ограничений. Доступ через Cohere API, Model Vault, OpenRouter и Hugging Face может потребовать регистрации, а в некоторых регионах — VPN и обход ограничений доступа к зарубежным сервисам. Если вы работаете из России, стоит заранее проверить доступность этих платформ.
Если вы разработчик или тимлид
- Нужен код‑агент, который можно держать у себя, а не только через внешний API — North Mini Code подходит.
- Вы строите внутренние инструменты разработки (бот‑ревьюер, ассистент в IDE, автогенерация PR) — модель даёт хороший баланс качества и стоимости.
- Важно не зависеть от одного вендора и иметь доступ к весам — Apache 2.0 и открытая публикация на Hugging Face решают задачу.
Если же вы ищете «одну большую модель на всё» (код, тексты, мультимодальность) и вас устраивает жизнь только в облачном API, North Mini Code — скорее специализированный инструмент, а не универсальный ассистент.
Место на рынке
Cohere явно нацеливает North Mini Code на сегмент средних открытых кодовых моделей с акцентом на агентность и скорость.
Из явных сравнений в релизе:
- Devstral Small 2 — референс для скорости
- North Mini Code даёт до 2,8× больше throughput при тех же условиях
- межтокенная задержка ниже на 30%, ответы идут ровнее и быстрее
- TTFT у Devstral Small 2 немного лучше, но итоговая скорость вывода у North Mini Code выше
По качеству на кодовых бенчмарках и задачах агентной разработки North Mini Code:
- показывает конкурентные результаты среди моделей своего класса
- набирает 33,4 в Artificial Analysis Coding Index, что ставит её в один ряд с другими средними кодовыми моделями
Главные отличия North Mini Code на фоне других open‑source кодовых моделей:
- MoE‑архитектура: 30B параметров, но 3B активных — хороший компромисс между качеством и затратами
- 256K контекста — это больше, чем у многих открытых кодовых моделей, и критично для больших репозиториев
- лицензия Apache 2.0 — максимально лояльная для коммерческого использования
- заточка под агентные сценарии: работа с под‑агентами, архитектурой, ревью и терминалом
Если сравнивать стратегически, Cohere делает ставку на «суверенный» стек: открытые веса, on‑prem, минимальная зависимость от вендора. Для компаний, которым важно держать ИИ‑инфраструктуру под полным контролем, это сильный аргумент.
Как начать пользоваться
Где взять North Mini Code
- Hugging Face — скачивание весов для локального и on‑prem развёртывания
- Cohere API — управляемый доступ к модели через облачный API
- Cohere Model Vault — полностью управляемая платформа для inference
- OpenRouter — ещё один способ вызвать модель через API
- OpenCode — среда для код‑агентов, с которой North Mini Code обучали на совместимость
Модель доступна бесплатно на Hugging Face и в Model Vault (для старта), дальше условия зависят от тарифа и инфраструктуры.
Базовый сценарий запуска
Релиз не даёт конкретных примеров кода, но общий путь такой:
- Скачать веса с Hugging Face и запустить модель в своём окружении (на H100 или в облаке с поддержкой FP8).
- Или подключиться к Cohere API / Model Vault / OpenRouter, указав North Mini Code как целевую модель.
- Использовать модель в своём код‑агенте, IDE‑плагине или CI‑боте.
Для детальных инструкций Cohere предлагает документацию с:
- техническими спецификациями модели
- гайдами по деплою на разных платформах
- готовыми «кукбуками» по интеграции в код‑агентов и пайплайны разработки
Если вы уже используете OpenCode или похожие фреймворки, North Mini Code должна работать «из коробки» или с минимальными правками конфига.
North Mini Code — понятный шаг Cohere в сторону открытых код‑агентов: MoE‑архитектура, длинный контекст, фокус на скорости и лицензия Apache 2.0. Для команд, которые хотят строить собственную агентную разработку и держать ИИ‑инфраструктуру под контролем, это один из самых интересных новых вариантов в open‑source‑экосистеме.