Дата публикации
ai_products

Cohere открыла Command A+: 218-миллиардная MoE‑модель под Apache 2.0 для агентных ИИ

Что нового

Cohere выложила в открытый доступ Command A+ — крупную смесь экспертов (Mixture-of-Experts, MoE) под лицензией Apache 2.0. Это LLM для агентных сценариев, которую можно запускать у себя, без облака Cohere.

Ключевые факты:

  • Архитектура: разреженная MoE, 218 млрд общих параметров, из них 25 млрд активных на один запрос.
  • Контекст: до 128K токенов на вход и до 64K токенов генерации.
  • Модальности:
    • вход: текст, изображения, вызов инструментов (tool use);
    • выход: текст, рассуждения, вызов инструментов.
  • Языки: поддержка 48 языков (против 23 у прошлых Command A‑моделей).
  • Оптимизация: заточена под рассуждение, агентные пайплайны, RAG, мультиязычную и мультимодальную обработку документов.
  • Лицензия: Apache 2.0 — можно использовать в коммерческих продуктах, модифицировать и разворачивать локально.
  • Фреймворки: vLLM и Transformers из коробки.
  • Железо (минимум):
    • 1× NVIDIA B200 в квантовке W4A4, или
    • 2× NVIDIA H100 в W4A4.

Бенчмарки и прирост по сравнению с Command A Reasoning

По сравнению с Command A Reasoning, Cohere показывает заметные приросты именно в агентных и «длинных» задачах:

  • 𝜏²-Bench Telecom (agentic reasoning):
    • Command A Reasoning: 37%;
    • Command A+: 85%.
  • Terminal-Bench Hard (агентный кодинг):
    • Command A Reasoning: 3%;
    • Command A+: 25%.
  • Улучшения также есть в обычном кодогенерации, следовании инструкциям и неагентном рассуждении (цифры Cohere приводит агрегированно на графиках).

Внутри платформы North (рабочее пространство Cohere для агентного ИИ) приросты такие:

  • Agentic Question Answering (доступ к облачным файловым системам через MCP):
    • +20% качества относительно Command A Reasoning.
  • Анализ таблиц (Data Analysis):
    • +32% качества.
  • Память (Memory Usage Quality) — умение опираться на прошлые сессии и сохранённые знания:
    • Command A Reasoning: 39%;
    • Command A+: 54%.

Мультимодальность

Command A+ — первая мультимодальная модель рассуждений в линейке Command A:

  • MMMU Pro: 63%.
  • MMMU: 75,1% (для сравнения, Command A Vision набирает 65,3% на MMMU).
  • MathVista: рост с 73,5% до 80,6%.
  • CharXiv (документное рассуждение): с 46,9% до 52,7%.

Мультиязычность

  • Расширение с 23 до 48 языков.
  • Рост качества на бенчмарках:
    • MT-AIME 2025 (математика AIME‑2025, переведённая на арабский, японский и корейский);
    • WMT24++ (оценка xCOMETxl по 50 языковым вариантам, включая ar_EG, ar_SA, pt_BR, pt_PT, zh_CN, zh_TW и др.).

Общий индекс для агентных задач

  • Artificial Analysis Intelligence Index: Command A+ набирает 37 баллов, что по данным Cohere выше других открытых моделей, ориентированных на корпоративные агентные пайплайны.

Скорость и эффективность

Command A+ при 218B/25B параметров работает быстрее, чем плотная Command A Reasoning на 111B:

  • При одинаковой квантовке и уровне параллелизма:
    • до +63% Output Tokens per Second (TOPS);
    • до −17% Time To First Token (TTFT).
  • Квантовка W4A4 даёт ещё:
    • +47% скорости генерации;
    • −13% латентности.
  • Дополнительно Cohere использует спекулятивное декодирование, что даёт 1,5–1,6× ускорение инференса для текста и мультимодальных запросов.

Новый токенизатор

Command A+ использует свежий токенизатор, который уменьшает число токенов на тот же текст:

  • экономия токенов по сравнению с прошлой версией токенизатора Command A Reasoning и gpt-oss;
  • арабский:20% токенов;
  • корейский:16%;
  • японский:18%.

Меньше токенов — меньше затрат на инференс при тех же сценариях.

Как это работает

Mixture-of-Experts вместо плотной архитектуры

Command A+ — это Sparse / MoE‑архитектура:

  • Модель содержит 218 млрд параметров, но на каждом токене активно только 25 млрд.
  • Разные «эксперты» обрабатывают разные типы входов и задач.
  • За счёт этого модель даёт качество крупной LLM, но требует меньше вычислений на запрос.

По сравнению с плотной 111B‑моделью Command A Reasoning, такая схема позволяет поднять скорость и снизить требования к железу при том же или лучшем качестве.

Квантовки и инференс

Cohere сразу выложила несколько вариантов весов на Hugging Face:

  • BF16 (16 бит) — для максимального качества;
  • FP8 (8 бит) — компромисс между скоростью и качеством;
  • W4A4 (4 бит) — агрессивная квантовка с почти незаметной потерей качества.

По заявлению Cohere, даже на двух H100 или одной Blackwell B200 в W4A4 качество почти не проседает.

Модель уже интегрирована с:

  • vLLM — для высокопроизводительного сервинга;
  • Transformers — для кастомных пайплайнов.

Спекулятивное декодирование

Для ускорения генерации Cohere использует speculative decoding, адаптированный под MoE:

  • «Черновой» маленький предиктор предлагает несколько токенов вперёд.
  • Основная Command A+ быстро проверяет и принимает или отклоняет их.
  • Это даёт 1,5–1,6× ускорение инференса без деградации качества.

Новый токенизатор

Новый токенизатор уменьшает длину последовательности:

  • меньше токенов — меньше шагов инференса, ниже стоимость;
  • важно для языков, которые часто страдают от неэффективной токенизации: арабский, японский, корейский и другие неевропейские языки.

Интеграция с North

Command A+ выросла из практики развёртывания North — рабочей среды Cohere для корпоративных агентных приложений:

  • North использует MCP‑подключения к облачным файловым системам;
  • есть встроенная память для долгоживущих агентов;
  • есть модули анализа таблиц и документов.

Command A+ специально обучали под эти сценарии, отсюда рост на внутренних метриках: агентный QA, анализ таблиц, использование памяти.

Что это значит для вас

Для кого вообще полезен Command A+

Command A+ имеет смысл смотреть, если вы:

  • строите агентные системы (оркестрация инструментов, сложные цепочки действий);
  • делаете корпоративные ассистенты с доступом к внутренним документам и хранилищам;
  • работаете с длинными документами (контракты, отчёты, научные статьи) и вам нужен большой контекст до 128K;
  • разрабатываете мультимодальные сценарии: текст + изображения, документы со схемами, слайдами, формулами;
  • нуждаетесь в локальном или суверенном ИИ — модель должна жить в вашем контуре, без передачи данных в облако стороннего вендора;
  • работаете с многими языками и не хотите городить отдельные модели под каждый.

Типичные сценарии, где Command A+ уместна

  1. Корпоративный агент, который сам ходит по файлам и сервисам.

    • Доступ к облачным файловым системам (через MCP или ваши коннекторы).
    • Ответы на сложные вопросы по документам, тикетам, базам знаний.
    • Запуск инструментов: от SQL‑запросов до внутренних API.
  2. Аналитика таблиц и отчётов.

    • Загрузка Excel/CSV, генерация сводок, проверка гипотез.
    • Автоматизация типичных задач аналитика уровня «сделай мне дешборд».
    • По данным Cohere, Command A+ даёт +32% качества анализа таблиц относительно Command A Reasoning.
  3. Долгоживущие агенты с памятью.

    • Персональные ассистенты, которые помнят прошлые сессии.
    • Корпоративные «коучи», отслеживающие историю взаимодействия сотрудника.
    • Внутренние тесты Cohere показывают рост качества использования памяти с 39% до 54%.
  4. Мультимодальный разбор документов.

    • Научные статьи, презентации, отчёты с графиками и формулами.
    • Бенчмарки вроде MMMU Pro, MathVista, CharXiv показывают ощутимый прирост по сравнению с Command A Vision.
  5. Мультиязычные ассистенты и локализация.

    • Поддержка 48 языков, улучшенная токенизация для арабского, корейского, японского.
    • Перевод и понимание сложных текстов (математика, техдокументация) на разных языках — см. MT-AIME 2025, WMT24++.
  6. Кодогенерация и агентный кодинг.

    • Автоматизация задач разработки через агента, который не только пишет код, но и использует инструменты.
    • На Terminal-Bench Hard рост с 3% до 25% показывает, что модель лучше справляется с «длинными» цепочками действий.

Где Command A+ может быть избыточной или неудобной

  1. Нет мощного GPU.

    • Даже с W4A4 вам нужен минимум 1× B200 или 2× H100 для комфортной работы.
    • Для локального запуска на одной потребительской видеокарте эта модель слишком тяжёлая.
  2. Простые чат‑боты без сложных задач.

    • Для FAQ‑бота или простого ассистента по документации проще и дешевле взять меньшую модель.
  3. Мобильные и встраиваемые сценарии.

    • Command A+ не предназначена для запуска на телефоне или слабых серверах.
  4. Если вам нужен только английский и короткие ответы.

    • Мощь мультиязычности и большого контекста в этом случае не окупит стоимость инференса.

Доступность из России

Command A+ лежит на Hugging Face и доступна под Apache 2.0.

  • Скачивание с Hugging Face может потребовать VPN, если доступ к платформе ограничен.
  • Развёртывание локально не зависит от географии, если у вас есть подходящее железо и инфраструктура.
  • Managed‑версии через Model Vault и интеграции Cohere могут быть недоступны из‑за гео‑ или санкционных ограничений, это нужно проверять отдельно.

Место на рынке

Cohere позиционирует Command A+ как открытую альтернативу закрытым корпоративным моделям для агентных сценариев.

Что известно из фактов в релизе:

  • Command A+ обходит другие открытые модели в Artificial Analysis Intelligence Index с результатом 37 баллов.
  • Модель показывает заметный прирост по сравнению с Command A Reasoning и Command A Vision на открытых бенчмарках:
    • MMMU / MMMU Pro, MathVista, CharXiv — мультимодальное рассуждение и документный анализ;
    • 𝜏²-Bench Telecom, Terminal-Bench Hard, AIME 2025, IFBench, Scicode — агентный и неагентный reasoning, кодинг.
  • На мультиязычных задачах (MT-AIME 2025, WMT24++) Command A+ улучшает качество и расширяет число поддерживаемых языков с 23 до 48.

Прямых численных сравнений с GPT‑линейкой, Claude или другими конкретными закрытыми моделями Cohere не приводит. Но по совокупности признаков Command A+ нацелен на тот же класс задач, что и крупные проприетарные LLM для корпораций, с акцентом на:

  • суверенный ИИ (запуск в контуре заказчика);
  • агентные сценарии и интеграцию с инструментами;
  • мультимодальность и длинный контекст.

Fujitsu уже публично заявляет интерес к использованию Command A+ в своих продуктах Takane и Kozuchi Enterprise AI Factory, что показывает: модель рассматривают как базу для промышленных решений, а не только для экспериментов.

Как запустить

Исходник не содержит готовых команд, но Cohere даёт два основных пути:

  1. Hugging Face — скачивание весов (BF16, FP8, W4A4), запуск через vLLM или Transformers.
  2. Model Vault — управляемый инференс от Cohere.

Базовый сценарий для разработчика, который хочет поиграть с моделью:

  1. Создать аккаунт на Hugging Face.
  2. Скачать нужную квантовку Command A+.
  3. Поднять vLLM или использовать Transformers для запуска.
  4. При необходимости — подключить инструменты (tool use) и мультимодальные входы.

Подробные инструкции Cohere обещает в документации и implementation guides на Hugging Face.

Если вы работаете в крупной компании и вам важна сертификация, аудит и SLA, логично смотреть в сторону Model Vault или интеграции через North.

Итог для практиков

  • Если вы строите агентные ассистенты, работаете с длинными и мультимодальными документами и вам важен локальный, контролируемый запуск, Command A+ — один из самых интересных открытых вариантов на сегодня.
  • Для простых чат‑ботов и сценариев без тяжёлых вычислений лучше выбрать модель поменьше.
  • Лицензия Apache 2.0 и готовые квантовки под vLLM/Transformers упрощают внедрение: можно экспериментировать локально, а затем переносить решения в прод.

Читайте также