- Дата публикации
Cohere открыла Command A+: 218-миллиардная MoE‑модель под Apache 2.0 для агентных ИИ
Что нового
Cohere выложила в открытый доступ Command A+ — крупную смесь экспертов (Mixture-of-Experts, MoE) под лицензией Apache 2.0. Это LLM для агентных сценариев, которую можно запускать у себя, без облака Cohere.
Ключевые факты:
- Архитектура: разреженная MoE, 218 млрд общих параметров, из них 25 млрд активных на один запрос.
- Контекст: до 128K токенов на вход и до 64K токенов генерации.
- Модальности:
- вход: текст, изображения, вызов инструментов (tool use);
- выход: текст, рассуждения, вызов инструментов.
- Языки: поддержка 48 языков (против 23 у прошлых Command A‑моделей).
- Оптимизация: заточена под рассуждение, агентные пайплайны, RAG, мультиязычную и мультимодальную обработку документов.
- Лицензия: Apache 2.0 — можно использовать в коммерческих продуктах, модифицировать и разворачивать локально.
- Фреймворки: vLLM и Transformers из коробки.
- Железо (минимум):
- 1× NVIDIA B200 в квантовке W4A4, или
- 2× NVIDIA H100 в W4A4.
Бенчмарки и прирост по сравнению с Command A Reasoning
По сравнению с Command A Reasoning, Cohere показывает заметные приросты именно в агентных и «длинных» задачах:
- 𝜏²-Bench Telecom (agentic reasoning):
- Command A Reasoning: 37%;
- Command A+: 85%.
- Terminal-Bench Hard (агентный кодинг):
- Command A Reasoning: 3%;
- Command A+: 25%.
- Улучшения также есть в обычном кодогенерации, следовании инструкциям и неагентном рассуждении (цифры Cohere приводит агрегированно на графиках).
Внутри платформы North (рабочее пространство Cohere для агентного ИИ) приросты такие:
- Agentic Question Answering (доступ к облачным файловым системам через MCP):
- +20% качества относительно Command A Reasoning.
- Анализ таблиц (Data Analysis):
- +32% качества.
- Память (Memory Usage Quality) — умение опираться на прошлые сессии и сохранённые знания:
- Command A Reasoning: 39%;
- Command A+: 54%.
Мультимодальность
Command A+ — первая мультимодальная модель рассуждений в линейке Command A:
- MMMU Pro: 63%.
- MMMU: 75,1% (для сравнения, Command A Vision набирает 65,3% на MMMU).
- MathVista: рост с 73,5% до 80,6%.
- CharXiv (документное рассуждение): с 46,9% до 52,7%.
Мультиязычность
- Расширение с 23 до 48 языков.
- Рост качества на бенчмарках:
- MT-AIME 2025 (математика AIME‑2025, переведённая на арабский, японский и корейский);
- WMT24++ (оценка xCOMETxl по 50 языковым вариантам, включая ar_EG, ar_SA, pt_BR, pt_PT, zh_CN, zh_TW и др.).
Общий индекс для агентных задач
- Artificial Analysis Intelligence Index: Command A+ набирает 37 баллов, что по данным Cohere выше других открытых моделей, ориентированных на корпоративные агентные пайплайны.
Скорость и эффективность
Command A+ при 218B/25B параметров работает быстрее, чем плотная Command A Reasoning на 111B:
- При одинаковой квантовке и уровне параллелизма:
- до +63% Output Tokens per Second (TOPS);
- до −17% Time To First Token (TTFT).
- Квантовка W4A4 даёт ещё:
- +47% скорости генерации;
- −13% латентности.
- Дополнительно Cohere использует спекулятивное декодирование, что даёт 1,5–1,6× ускорение инференса для текста и мультимодальных запросов.
Новый токенизатор
Command A+ использует свежий токенизатор, который уменьшает число токенов на тот же текст:
- экономия токенов по сравнению с прошлой версией токенизатора Command A Reasoning и gpt-oss;
- арабский: −20% токенов;
- корейский: −16%;
- японский: −18%.
Меньше токенов — меньше затрат на инференс при тех же сценариях.
Как это работает
Mixture-of-Experts вместо плотной архитектуры
Command A+ — это Sparse / MoE‑архитектура:
- Модель содержит 218 млрд параметров, но на каждом токене активно только 25 млрд.
- Разные «эксперты» обрабатывают разные типы входов и задач.
- За счёт этого модель даёт качество крупной LLM, но требует меньше вычислений на запрос.
По сравнению с плотной 111B‑моделью Command A Reasoning, такая схема позволяет поднять скорость и снизить требования к железу при том же или лучшем качестве.
Квантовки и инференс
Cohere сразу выложила несколько вариантов весов на Hugging Face:
- BF16 (16 бит) — для максимального качества;
- FP8 (8 бит) — компромисс между скоростью и качеством;
- W4A4 (4 бит) — агрессивная квантовка с почти незаметной потерей качества.
По заявлению Cohere, даже на двух H100 или одной Blackwell B200 в W4A4 качество почти не проседает.
Модель уже интегрирована с:
- vLLM — для высокопроизводительного сервинга;
- Transformers — для кастомных пайплайнов.
Спекулятивное декодирование
Для ускорения генерации Cohere использует speculative decoding, адаптированный под MoE:
- «Черновой» маленький предиктор предлагает несколько токенов вперёд.
- Основная Command A+ быстро проверяет и принимает или отклоняет их.
- Это даёт 1,5–1,6× ускорение инференса без деградации качества.
Новый токенизатор
Новый токенизатор уменьшает длину последовательности:
- меньше токенов — меньше шагов инференса, ниже стоимость;
- важно для языков, которые часто страдают от неэффективной токенизации: арабский, японский, корейский и другие неевропейские языки.
Интеграция с North
Command A+ выросла из практики развёртывания North — рабочей среды Cohere для корпоративных агентных приложений:
- North использует MCP‑подключения к облачным файловым системам;
- есть встроенная память для долгоживущих агентов;
- есть модули анализа таблиц и документов.
Command A+ специально обучали под эти сценарии, отсюда рост на внутренних метриках: агентный QA, анализ таблиц, использование памяти.
Что это значит для вас
Для кого вообще полезен Command A+
Command A+ имеет смысл смотреть, если вы:
- строите агентные системы (оркестрация инструментов, сложные цепочки действий);
- делаете корпоративные ассистенты с доступом к внутренним документам и хранилищам;
- работаете с длинными документами (контракты, отчёты, научные статьи) и вам нужен большой контекст до 128K;
- разрабатываете мультимодальные сценарии: текст + изображения, документы со схемами, слайдами, формулами;
- нуждаетесь в локальном или суверенном ИИ — модель должна жить в вашем контуре, без передачи данных в облако стороннего вендора;
- работаете с многими языками и не хотите городить отдельные модели под каждый.
Типичные сценарии, где Command A+ уместна
-
Корпоративный агент, который сам ходит по файлам и сервисам.
- Доступ к облачным файловым системам (через MCP или ваши коннекторы).
- Ответы на сложные вопросы по документам, тикетам, базам знаний.
- Запуск инструментов: от SQL‑запросов до внутренних API.
-
Аналитика таблиц и отчётов.
- Загрузка Excel/CSV, генерация сводок, проверка гипотез.
- Автоматизация типичных задач аналитика уровня «сделай мне дешборд».
- По данным Cohere, Command A+ даёт +32% качества анализа таблиц относительно Command A Reasoning.
-
Долгоживущие агенты с памятью.
- Персональные ассистенты, которые помнят прошлые сессии.
- Корпоративные «коучи», отслеживающие историю взаимодействия сотрудника.
- Внутренние тесты Cohere показывают рост качества использования памяти с 39% до 54%.
-
Мультимодальный разбор документов.
- Научные статьи, презентации, отчёты с графиками и формулами.
- Бенчмарки вроде MMMU Pro, MathVista, CharXiv показывают ощутимый прирост по сравнению с Command A Vision.
-
Мультиязычные ассистенты и локализация.
- Поддержка 48 языков, улучшенная токенизация для арабского, корейского, японского.
- Перевод и понимание сложных текстов (математика, техдокументация) на разных языках — см. MT-AIME 2025, WMT24++.
-
Кодогенерация и агентный кодинг.
- Автоматизация задач разработки через агента, который не только пишет код, но и использует инструменты.
- На Terminal-Bench Hard рост с 3% до 25% показывает, что модель лучше справляется с «длинными» цепочками действий.
Где Command A+ может быть избыточной или неудобной
-
Нет мощного GPU.
- Даже с W4A4 вам нужен минимум 1× B200 или 2× H100 для комфортной работы.
- Для локального запуска на одной потребительской видеокарте эта модель слишком тяжёлая.
-
Простые чат‑боты без сложных задач.
- Для FAQ‑бота или простого ассистента по документации проще и дешевле взять меньшую модель.
-
Мобильные и встраиваемые сценарии.
- Command A+ не предназначена для запуска на телефоне или слабых серверах.
-
Если вам нужен только английский и короткие ответы.
- Мощь мультиязычности и большого контекста в этом случае не окупит стоимость инференса.
Доступность из России
Command A+ лежит на Hugging Face и доступна под Apache 2.0.
- Скачивание с Hugging Face может потребовать VPN, если доступ к платформе ограничен.
- Развёртывание локально не зависит от географии, если у вас есть подходящее железо и инфраструктура.
- Managed‑версии через Model Vault и интеграции Cohere могут быть недоступны из‑за гео‑ или санкционных ограничений, это нужно проверять отдельно.
Место на рынке
Cohere позиционирует Command A+ как открытую альтернативу закрытым корпоративным моделям для агентных сценариев.
Что известно из фактов в релизе:
- Command A+ обходит другие открытые модели в Artificial Analysis Intelligence Index с результатом 37 баллов.
- Модель показывает заметный прирост по сравнению с Command A Reasoning и Command A Vision на открытых бенчмарках:
- MMMU / MMMU Pro, MathVista, CharXiv — мультимодальное рассуждение и документный анализ;
- 𝜏²-Bench Telecom, Terminal-Bench Hard, AIME 2025, IFBench, Scicode — агентный и неагентный reasoning, кодинг.
- На мультиязычных задачах (MT-AIME 2025, WMT24++) Command A+ улучшает качество и расширяет число поддерживаемых языков с 23 до 48.
Прямых численных сравнений с GPT‑линейкой, Claude или другими конкретными закрытыми моделями Cohere не приводит. Но по совокупности признаков Command A+ нацелен на тот же класс задач, что и крупные проприетарные LLM для корпораций, с акцентом на:
- суверенный ИИ (запуск в контуре заказчика);
- агентные сценарии и интеграцию с инструментами;
- мультимодальность и длинный контекст.
Fujitsu уже публично заявляет интерес к использованию Command A+ в своих продуктах Takane и Kozuchi Enterprise AI Factory, что показывает: модель рассматривают как базу для промышленных решений, а не только для экспериментов.
Как запустить
Исходник не содержит готовых команд, но Cohere даёт два основных пути:
- Hugging Face — скачивание весов (BF16, FP8, W4A4), запуск через vLLM или Transformers.
- Model Vault — управляемый инференс от Cohere.
Базовый сценарий для разработчика, который хочет поиграть с моделью:
- Создать аккаунт на Hugging Face.
- Скачать нужную квантовку Command A+.
- Поднять vLLM или использовать Transformers для запуска.
- При необходимости — подключить инструменты (tool use) и мультимодальные входы.
Подробные инструкции Cohere обещает в документации и implementation guides на Hugging Face.
Если вы работаете в крупной компании и вам важна сертификация, аудит и SLA, логично смотреть в сторону Model Vault или интеграции через North.
Итог для практиков
- Если вы строите агентные ассистенты, работаете с длинными и мультимодальными документами и вам важен локальный, контролируемый запуск, Command A+ — один из самых интересных открытых вариантов на сегодня.
- Для простых чат‑ботов и сценариев без тяжёлых вычислений лучше выбрать модель поменьше.
- Лицензия Apache 2.0 и готовые квантовки под vLLM/Transformers упрощают внедрение: можно экспериментировать локально, а затем переносить решения в прод.