Дата публикации
ai_products

Cohere открыла North Mini Code: 30B MoE‑модель для быстрых код‑агентов под Apache 2.0

Что нового

Cohere выпустила North Mini Code — открытый агентный кодовый LLM с лицензией Apache 2.0.

Ключевые характеристики:

  • Архитектура: Mixture-of-Experts (MoE)
  • Размер: 30 млрд параметров всего, из них 3 млрд активных на каждый токен
  • Контекст: до 256K токенов общего контекста, максимум 64K токенов генерации за раз
  • Оптимизация: кодогенерация, агентная разработка ПО, терминальные задачи
  • Лицензия: Apache 2.0 (можно использовать в коммерческих продуктах, менять, форкать)
  • Доступность: веса на Hugging Face, inference через Cohere API, Model Vault и OpenRouter, интеграция с OpenCode
  • Железо (минимум): одна NVIDIA H100 в FP8

Производительность и скорость:

  • 33,4 балла в Artificial Analysis Coding Index — конкурентный результат среди моделей подобного размера
  • До 2,8× выше пропускная способность вывода, чем у Devstral Small 2, при одинаковом железе и уровне параллелизма
  • –30% межтокенная задержка (inter-token latency) по сравнению с Devstral Small 2
  • Время до первого токена (TTFT) у Devstral Small 2 немного лучше, но разрыв небольшой

North Mini Code — первый открытый кодовый агент от Cohere и старт новой линейки моделей, заточенных под «суверенный» ИИ: когда разработчик контролирует инфраструктуру и веса, а не только API.

Как это работает

Mixture-of-Experts: 30B параметров, но считают только 3B

North Mini Code использует архитектуру Mixture-of-Experts (MoE). Внутри — несколько «экспертов» (подсетей), но при генерации токена активна только часть параметров:

  • всего параметров: 30B
  • одновременно активных: 3B

За счёт роутера модель выбирает, каких экспертов подключить к каждому токену. В итоге:

  • качество ближе к крупной модели (30B)
  • затраты на вычисления и память — ближе к компактной (3B активных)

Это даёт возможность запускать North Mini Code на более доступном железе, чем классические плотные 30B‑модели, и всё равно держать высокую скорость генерации.

Глубокий контекст и длинные сессии

Модель поддерживает 256K токенов контекста. Это значит, что вы можете:

  • скормить ей большой репозиторий кода
  • добавить документацию, логи, конфиги
  • работать в рамках одной длинной сессии без постоянного пересборa промпта

Максимальная длина одного ответа — 64K токенов. Этого достаточно для:

  • генерации крупных файлов
  • сложных рефакторингов с подробными комментариями
  • детальных отчётов по ревью кода

Агентные сценарии

North Mini Code обучили не только на «просто коде», но и на задачах, где модель выступает как кодовый агент:

  • понимает и оркестрирует под‑агентов (например, отдельный агент для тестов, отдельный — для документации)
  • умеет строить карту архитектуры системы: модули, зависимости, точки интеграции
  • поддерживает код‑ревью: поиск ошибок, анти‑паттернов, рискованных изменений
  • работает с терминальными задачами: команды, сценарии, пайплайны

За счёт этого North Mini Code можно не только просить написать функцию, но и поручать ей цепочки действий: «разбери проект, предложи план рефакторинга, напиши патчи, сгенерируй тесты».

Скорость и стоимость владения

Cohere явно делает упор на скорость и TCO (total cost of ownership):

  • до 2,8× выше throughput, чем у Devstral Small 2, при одинаковых условиях
  • 30% меньше межтокенная задержка, то есть токены идут более ровным потоком
  • TTFT у Devstral Small 2 немного лучше, но в типичных задачах кодогенерации ключевую роль играет именно скорость потока, а не первый токен

Для разработчика это означает:

  • быстрее проходят CI‑боты и код‑агенты
  • можно обслуживать больше параллельных запросов на том же железе
  • дешевле запускать внутренние инструменты разработки

Что это значит для вас

Для чего North Mini Code подходит

1. Автодополнение и генерация кода

  • генерация функций, классов, модулей
  • шаблоны сервисов, CLI‑утилит, скриптов
  • написание тестов, моков, фикстур

2. Агентная разработка ПО

  • боты‑ревьюеры в GitHub/GitLab
  • агенты, которые анализируют репозиторий, пишут план работ и патчи
  • ассистенты, которые разбираются в архитектуре большого монорепо

3. Работа с терминалом и инфраструктурой

  • генерация команд для CI/CD, Docker, Kubernetes
  • подготовка скриптов миграций, деплоя, бэкапов
  • автоматизация рутинных операционных задач

4. Локальные и on‑prem инсталляции

North Mini Code удобно разворачивать:

  • внутри компании, рядом с кодом и приватными репозиториями
  • в изолированных контурах, где нельзя использовать внешние SaaS‑API
  • как часть собственных код‑платформ и IDE‑плагинов

Лицензия Apache 2.0 позволяет:

  • встраивать модель в коммерческие продукты
  • модифицировать и дообучать её под свои домены
  • не раскрывать свой форк, если этого не требует ваша политика

Где модель не лучшая идея

  • Слабое железо. Формально нужен минимум 1× H100 @ FP8. На менее мощных GPU модель можно попытаться запустить с квантованием и оптимизациями, но Cohere ориентируется именно на этот класс железа. Если у вас только потребительские карты, придётся потрудиться с оптимизацией или использовать облако.
  • Нелокализованные сценарии. В тексте релиза нет фокуса на конкретные языки, но North Mini Code в первую очередь нацелена на код и терминальные задачи, а не на общие разговорные сценарии. Для чистого чат‑бота без кода лучше подойдут модели общего назначения.
  • Онлайн‑доступ без ограничений. Доступ через Cohere API, Model Vault, OpenRouter и Hugging Face может потребовать регистрации, а в некоторых регионах — VPN и обход ограничений доступа к зарубежным сервисам. Если вы работаете из России, стоит заранее проверить доступность этих платформ.

Если вы разработчик или тимлид

  • Нужен код‑агент, который можно держать у себя, а не только через внешний API — North Mini Code подходит.
  • Вы строите внутренние инструменты разработки (бот‑ревьюер, ассистент в IDE, автогенерация PR) — модель даёт хороший баланс качества и стоимости.
  • Важно не зависеть от одного вендора и иметь доступ к весам — Apache 2.0 и открытая публикация на Hugging Face решают задачу.

Если же вы ищете «одну большую модель на всё» (код, тексты, мультимодальность) и вас устраивает жизнь только в облачном API, North Mini Code — скорее специализированный инструмент, а не универсальный ассистент.

Место на рынке

Cohere явно нацеливает North Mini Code на сегмент средних открытых кодовых моделей с акцентом на агентность и скорость.

Из явных сравнений в релизе:

  • Devstral Small 2 — референс для скорости
    • North Mini Code даёт до 2,8× больше throughput при тех же условиях
    • межтокенная задержка ниже на 30%, ответы идут ровнее и быстрее
    • TTFT у Devstral Small 2 немного лучше, но итоговая скорость вывода у North Mini Code выше

По качеству на кодовых бенчмарках и задачах агентной разработки North Mini Code:

  • показывает конкурентные результаты среди моделей своего класса
  • набирает 33,4 в Artificial Analysis Coding Index, что ставит её в один ряд с другими средними кодовыми моделями

Главные отличия North Mini Code на фоне других open‑source кодовых моделей:

  • MoE‑архитектура: 30B параметров, но 3B активных — хороший компромисс между качеством и затратами
  • 256K контекста — это больше, чем у многих открытых кодовых моделей, и критично для больших репозиториев
  • лицензия Apache 2.0 — максимально лояльная для коммерческого использования
  • заточка под агентные сценарии: работа с под‑агентами, архитектурой, ревью и терминалом

Если сравнивать стратегически, Cohere делает ставку на «суверенный» стек: открытые веса, on‑prem, минимальная зависимость от вендора. Для компаний, которым важно держать ИИ‑инфраструктуру под полным контролем, это сильный аргумент.

Как начать пользоваться

Где взять North Mini Code

  • Hugging Face — скачивание весов для локального и on‑prem развёртывания
  • Cohere API — управляемый доступ к модели через облачный API
  • Cohere Model Vault — полностью управляемая платформа для inference
  • OpenRouter — ещё один способ вызвать модель через API
  • OpenCode — среда для код‑агентов, с которой North Mini Code обучали на совместимость

Модель доступна бесплатно на Hugging Face и в Model Vault (для старта), дальше условия зависят от тарифа и инфраструктуры.

Базовый сценарий запуска

Релиз не даёт конкретных примеров кода, но общий путь такой:

  1. Скачать веса с Hugging Face и запустить модель в своём окружении (на H100 или в облаке с поддержкой FP8).
  2. Или подключиться к Cohere API / Model Vault / OpenRouter, указав North Mini Code как целевую модель.
  3. Использовать модель в своём код‑агенте, IDE‑плагине или CI‑боте.

Для детальных инструкций Cohere предлагает документацию с:

  • техническими спецификациями модели
  • гайдами по деплою на разных платформах
  • готовыми «кукбуками» по интеграции в код‑агентов и пайплайны разработки

Если вы уже используете OpenCode или похожие фреймворки, North Mini Code должна работать «из коробки» или с минимальными правками конфига.


North Mini Code — понятный шаг Cohere в сторону открытых код‑агентов: MoE‑архитектура, длинный контекст, фокус на скорости и лицензия Apache 2.0. Для команд, которые хотят строить собственную агентную разработку и держать ИИ‑инфраструктуру под контролем, это один из самых интересных новых вариантов в open‑source‑экосистеме.


Читайте также