Cohere открыла Command A+: 218-миллиардная MoE‑модель под Apache 2.0 для агентных ИИ — VogueTech

Что нового

Cohere выложила в открытый доступ Command A+ — крупную смесь экспертов (Mixture-of-Experts, MoE) под лицензией Apache 2.0. Это LLM для агентных сценариев, которую можно запускать у себя, без облака Cohere.

Ключевые факты:

Архитектура: разреженная MoE, 218 млрд общих параметров, из них 25 млрд активных на один запрос.
Контекст: до 128K токенов на вход и до 64K токенов генерации.
Модальности:
- вход: текст, изображения, вызов инструментов (tool use);
- выход: текст, рассуждения, вызов инструментов.
Языки: поддержка 48 языков (против 23 у прошлых Command A‑моделей).
Оптимизация: заточена под рассуждение, агентные пайплайны, RAG, мультиязычную и мультимодальную обработку документов.
Лицензия: Apache 2.0 — можно использовать в коммерческих продуктах, модифицировать и разворачивать локально.
Фреймворки: vLLM и Transformers из коробки.
Железо (минимум):
- 1× NVIDIA B200 в квантовке W4A4, или
- 2× NVIDIA H100 в W4A4.

Бенчмарки и прирост по сравнению с Command A Reasoning

По сравнению с Command A Reasoning, Cohere показывает заметные приросты именно в агентных и «длинных» задачах:

𝜏²-Bench Telecom (agentic reasoning):
- Command A Reasoning: 37%;
- Command A+: 85%.
Terminal-Bench Hard (агентный кодинг):
- Command A Reasoning: 3%;
- Command A+: 25%.
Улучшения также есть в обычном кодогенерации, следовании инструкциям и неагентном рассуждении (цифры Cohere приводит агрегированно на графиках).

Внутри платформы North (рабочее пространство Cohere для агентного ИИ) приросты такие:

Agentic Question Answering (доступ к облачным файловым системам через MCP):
- +20% качества относительно Command A Reasoning.
Анализ таблиц (Data Analysis):
- +32% качества.
Память (Memory Usage Quality) — умение опираться на прошлые сессии и сохранённые знания:
- Command A Reasoning: 39%;
- Command A+: 54%.

Мультимодальность

Command A+ — первая мультимодальная модель рассуждений в линейке Command A:

MMMU Pro: 63%.
MMMU: 75,1% (для сравнения, Command A Vision набирает 65,3% на MMMU).
MathVista: рост с 73,5% до 80,6%.
CharXiv (документное рассуждение): с 46,9% до 52,7%.

Мультиязычность

Расширение с 23 до 48 языков.
Рост качества на бенчмарках:
- MT-AIME 2025 (математика AIME‑2025, переведённая на арабский, японский и корейский);
- WMT24++ (оценка xCOMETxl по 50 языковым вариантам, включая ar_EG, ar_SA, pt_BR, pt_PT, zh_CN, zh_TW и др.).

Общий индекс для агентных задач

Artificial Analysis Intelligence Index: Command A+ набирает 37 баллов, что по данным Cohere выше других открытых моделей, ориентированных на корпоративные агентные пайплайны.

Скорость и эффективность

Command A+ при 218B/25B параметров работает быстрее, чем плотная Command A Reasoning на 111B:

При одинаковой квантовке и уровне параллелизма:
- до +63% Output Tokens per Second (TOPS);
- до −17% Time To First Token (TTFT).
Квантовка W4A4 даёт ещё:
- +47% скорости генерации;
- −13% латентности.
Дополнительно Cohere использует спекулятивное декодирование, что даёт 1,5–1,6× ускорение инференса для текста и мультимодальных запросов.

Новый токенизатор

Command A+ использует свежий токенизатор, который уменьшает число токенов на тот же текст:

экономия токенов по сравнению с прошлой версией токенизатора Command A Reasoning и gpt-oss;
арабский: −20% токенов;
корейский: −16%;
японский: −18%.

Меньше токенов — меньше затрат на инференс при тех же сценариях.

Как это работает

Mixture-of-Experts вместо плотной архитектуры

Command A+ — это Sparse / MoE‑архитектура:

Модель содержит 218 млрд параметров, но на каждом токене активно только 25 млрд.
Разные «эксперты» обрабатывают разные типы входов и задач.
За счёт этого модель даёт качество крупной LLM, но требует меньше вычислений на запрос.

По сравнению с плотной 111B‑моделью Command A Reasoning, такая схема позволяет поднять скорость и снизить требования к железу при том же или лучшем качестве.

Квантовки и инференс

Cohere сразу выложила несколько вариантов весов на Hugging Face:

BF16 (16 бит) — для максимального качества;
FP8 (8 бит) — компромисс между скоростью и качеством;
W4A4 (4 бит) — агрессивная квантовка с почти незаметной потерей качества.

По заявлению Cohere, даже на двух H100 или одной Blackwell B200 в W4A4 качество почти не проседает.

Модель уже интегрирована с:

vLLM — для высокопроизводительного сервинга;
Transformers — для кастомных пайплайнов.

Спекулятивное декодирование

Для ускорения генерации Cohere использует speculative decoding, адаптированный под MoE:

«Черновой» маленький предиктор предлагает несколько токенов вперёд.
Основная Command A+ быстро проверяет и принимает или отклоняет их.
Это даёт 1,5–1,6× ускорение инференса без деградации качества.

Новый токенизатор

Новый токенизатор уменьшает длину последовательности:

меньше токенов — меньше шагов инференса, ниже стоимость;
важно для языков, которые часто страдают от неэффективной токенизации: арабский, японский, корейский и другие неевропейские языки.

Интеграция с North

Command A+ выросла из практики развёртывания North — рабочей среды Cohere для корпоративных агентных приложений:

North использует MCP‑подключения к облачным файловым системам;
есть встроенная память для долгоживущих агентов;
есть модули анализа таблиц и документов.

Command A+ специально обучали под эти сценарии, отсюда рост на внутренних метриках: агентный QA, анализ таблиц, использование памяти.

Что это значит для вас

Для кого вообще полезен Command A+

Command A+ имеет смысл смотреть, если вы:

строите агентные системы (оркестрация инструментов, сложные цепочки действий);
делаете корпоративные ассистенты с доступом к внутренним документам и хранилищам;
работаете с длинными документами (контракты, отчёты, научные статьи) и вам нужен большой контекст до 128K;
разрабатываете мультимодальные сценарии: текст + изображения, документы со схемами, слайдами, формулами;
нуждаетесь в локальном или суверенном ИИ — модель должна жить в вашем контуре, без передачи данных в облако стороннего вендора;
работаете с многими языками и не хотите городить отдельные модели под каждый.

Типичные сценарии, где Command A+ уместна

Корпоративный агент, который сам ходит по файлам и сервисам.
- Доступ к облачным файловым системам (через MCP или ваши коннекторы).
- Ответы на сложные вопросы по документам, тикетам, базам знаний.
- Запуск инструментов: от SQL‑запросов до внутренних API.
Аналитика таблиц и отчётов.
- Загрузка Excel/CSV, генерация сводок, проверка гипотез.
- Автоматизация типичных задач аналитика уровня «сделай мне дешборд».
- По данным Cohere, Command A+ даёт +32% качества анализа таблиц относительно Command A Reasoning.
Долгоживущие агенты с памятью.
- Персональные ассистенты, которые помнят прошлые сессии.
- Корпоративные «коучи», отслеживающие историю взаимодействия сотрудника.
- Внутренние тесты Cohere показывают рост качества использования памяти с 39% до 54%.
Мультимодальный разбор документов.
- Научные статьи, презентации, отчёты с графиками и формулами.
- Бенчмарки вроде MMMU Pro, MathVista, CharXiv показывают ощутимый прирост по сравнению с Command A Vision.
Мультиязычные ассистенты и локализация.
- Поддержка 48 языков, улучшенная токенизация для арабского, корейского, японского.
- Перевод и понимание сложных текстов (математика, техдокументация) на разных языках — см. MT-AIME 2025, WMT24++.
Кодогенерация и агентный кодинг.
- Автоматизация задач разработки через агента, который не только пишет код, но и использует инструменты.
- На Terminal-Bench Hard рост с 3% до 25% показывает, что модель лучше справляется с «длинными» цепочками действий.

Где Command A+ может быть избыточной или неудобной

Нет мощного GPU.
- Даже с W4A4 вам нужен минимум 1× B200 или 2× H100 для комфортной работы.
- Для локального запуска на одной потребительской видеокарте эта модель слишком тяжёлая.
Простые чат‑боты без сложных задач.
- Для FAQ‑бота или простого ассистента по документации проще и дешевле взять меньшую модель.
Мобильные и встраиваемые сценарии.
- Command A+ не предназначена для запуска на телефоне или слабых серверах.
Если вам нужен только английский и короткие ответы.
- Мощь мультиязычности и большого контекста в этом случае не окупит стоимость инференса.

Доступность из России

Command A+ лежит на Hugging Face и доступна под Apache 2.0.

Скачивание с Hugging Face может потребовать VPN, если доступ к платформе ограничен.
Развёртывание локально не зависит от географии, если у вас есть подходящее железо и инфраструктура.
Managed‑версии через Model Vault и интеграции Cohere могут быть недоступны из‑за гео‑ или санкционных ограничений, это нужно проверять отдельно.

Место на рынке

Cohere позиционирует Command A+ как открытую альтернативу закрытым корпоративным моделям для агентных сценариев.

Что известно из фактов в релизе:

Command A+ обходит другие открытые модели в Artificial Analysis Intelligence Index с результатом 37 баллов.
Модель показывает заметный прирост по сравнению с Command A Reasoning и Command A Vision на открытых бенчмарках:
- MMMU / MMMU Pro, MathVista, CharXiv — мультимодальное рассуждение и документный анализ;
- 𝜏²-Bench Telecom, Terminal-Bench Hard, AIME 2025, IFBench, Scicode — агентный и неагентный reasoning, кодинг.
На мультиязычных задачах (MT-AIME 2025, WMT24++) Command A+ улучшает качество и расширяет число поддерживаемых языков с 23 до 48.

Прямых численных сравнений с GPT‑линейкой, Claude или другими конкретными закрытыми моделями Cohere не приводит. Но по совокупности признаков Command A+ нацелен на тот же класс задач, что и крупные проприетарные LLM для корпораций, с акцентом на:

суверенный ИИ (запуск в контуре заказчика);
агентные сценарии и интеграцию с инструментами;
мультимодальность и длинный контекст.

Fujitsu уже публично заявляет интерес к использованию Command A+ в своих продуктах Takane и Kozuchi Enterprise AI Factory, что показывает: модель рассматривают как базу для промышленных решений, а не только для экспериментов.

Как запустить

Исходник не содержит готовых команд, но Cohere даёт два основных пути:

Hugging Face — скачивание весов (BF16, FP8, W4A4), запуск через vLLM или Transformers.
Model Vault — управляемый инференс от Cohere.

Базовый сценарий для разработчика, который хочет поиграть с моделью:

Создать аккаунт на Hugging Face.
Скачать нужную квантовку Command A+.
Поднять vLLM или использовать Transformers для запуска.
При необходимости — подключить инструменты (tool use) и мультимодальные входы.

Подробные инструкции Cohere обещает в документации и implementation guides на Hugging Face.

Если вы работаете в крупной компании и вам важна сертификация, аудит и SLA, логично смотреть в сторону Model Vault или интеграции через North.

Итог для практиков

Если вы строите агентные ассистенты, работаете с длинными и мультимодальными документами и вам важен локальный, контролируемый запуск, Command A+ — один из самых интересных открытых вариантов на сегодня.
Для простых чат‑ботов и сценариев без тяжёлых вычислений лучше выбрать модель поменьше.
Лицензия Apache 2.0 и готовые квантовки под vLLM/Transformers упрощают внедрение: можно экспериментировать локально, а затем переносить решения в прод.

Что нового

Бенчмарки и прирост по сравнению с Command A Reasoning

Мультимодальность

Мультиязычность

Общий индекс для агентных задач

Скорость и эффективность

Новый токенизатор

Как это работает

Mixture-of-Experts вместо плотной архитектуры

Квантовки и инференс

Спекулятивное декодирование

Новый токенизатор

Интеграция с North

Что это значит для вас

Для кого вообще полезен Command A+

Типичные сценарии, где Command A+ уместна

Где Command A+ может быть избыточной или неудобной

Доступность из России

Место на рынке

Как запустить

Итог для практиков

Читайте также