Дата публикации
ai_products

Kimi K2.6: открытый ИИ-разработчик, который тянет длинные проекты и рои агентов

Что нового

Kimi открыла исходники своей новой модели Kimi K2.6. Это большой языковой ИИ с явным упором на код, длинные сценарии и работу в виде роя агентов.

Где доступен:

  • веб-интерфейс Kimi.com;
  • приложение Kimi;
  • API;
  • среда Kimi Code.

Главные изменения по сравнению с K2.5:

  1. Код и длинные сессии
  • Внутренний бенчмарк Kimi Code Bench (сложные end-to-end задачи) — заметный рост качества по сравнению с K2.5 (точные цифры не раскрывают, но ниже есть метрики от партнёров).
  • На внутренних оценках CodeBuddy:
    • точность генерации кода +12%;
    • стабильность на длинном контексте +18%;
    • успешные вызовы инструментов — 96,60%.
  • На Next.js-бенчмарке у одного из партнёров — более 50% прироста к K2.5.
  • Поддержка сложных задач на Rust, Go, Python, фронтенд, DevOps и оптимизация производительности.
  1. Реальные длинные инженерные эксперименты
  • Локальный запуск модели Qwen3.5-0.8B на Mac:
    • язык реализации инференса — Zig (очень нишевый язык);
    • более 4 000 вызовов инструментов;
    • более 12 часов непрерывной работы;
    • 14 итераций оптимизации;
    • скорость выросла с ~15 до ~193 токенов/с;
    • итоговая скорость примерно на 20% выше, чем у LM Studio.
  • Оптимизация ядра биржевого движка exchange-core (open source, 8 лет кода):
    • 13 часов непрерывной работы агента;
    • 12 стратегий оптимизации;
    • более 1 000 вызовов инструментов;
    • изменено более 4 000 строк кода;
    • переразведена топология потоков с 4ME+2RE на 2ME+1RE;
    • медианный throughput вырос на 185% (с 0,43 до 1,24 MT/s);
    • производительность по throughput выросла на 133% (с 1,23 до 2,86 MT/s).
  1. Агентные сценарии и рои агентов (Agent Swarm)
  • Новая версия Agent Swarm на базе K2.6:
    • горизонтальное масштабирование до 300 подагентов одновременно;
    • до 4 000 согласованных шагов;
    • раньше у K2.5 было до 100 подагентов и 1 500 шагов.
  • Умеет параллельно собирать документы, сайты, презентации и таблицы в одном прогоне.
  • Может превращать любые качественные файлы (PDF, презентации, таблицы, Word) в Skills — зафиксированный стиль и структура, которые можно переиспользовать.

Примеры использования Swarm:

  • 5 количественных стратегий по 100 полупроводниковым активам:
    • результат — презентация в стиле McKinsey, набор повторно используемых навыков, подробные финансовые таблицы и полный executive-доклад.
  • Астрофизическая статья с насыщенной визуализацией:
    • превращена в академический skill;
    • итог — 40-страничная исследовательская работа на 7 000 слов, датасет с 20 000+ записей и 14 графиков «астрономического» уровня.
  • Автоподбор работы по резюме:
    • на базе одного загруженного CV K2.6 создала 100 подагентов;
    • подобрала 100 релевантных позиций в Калифорнии;
    • выдала структурированный список вакансий и 100 кастомизированных резюме.
  • Локальный бизнес:
    • нашла 30 магазинов в Лос-Анджелесе без сайтов по Google Maps;
    • сгенерировала для каждого лендинг с высокой конверсией.
  1. Фронтенд и простые full‑stack сценарии
  • Из простого промпта K2.6 собирает полноценный интерфейс:
    • структурированные макеты;
    • продуманные hero-секции;
    • интерактивные элементы и анимации, включая эффекты при скролле.
  • Умеет вызывать инструменты генерации изображений и видео:
    • создаёт визуально цельные ассеты;
    • улучшает качество и выразительность hero-блоков.
  • Поддерживает простые full‑stack‑воркфлоу:
    • аутентификация;
    • взаимодействие с пользователем;
    • операции с БД для лёгких задач (лог транзакций, управление сессиями и т.п.).

Внутренний Kimi Design Bench (4 категории: задачи с визуальным входом, сборка лендингов, full‑stack‑приложения, креативное программирование) показывает, что K2.6 уверенно держится на уровне Google AI Studio.

  1. Проактивные и длительные агенты
  • K2.6 управляет агентами OpenClaw и Hermes, которые работают 24/7 и ходят по нескольким приложениям.
  • Реальный кейс: RL-инфраструктурная команда запустила агента на K2.6 на 5 дней подряд.
    • агент занимался мониторингом, реагированием на инциденты и операционкой;
    • показал устойчивый контекст, параллельную работу с задачами и полный цикл от алерта до решения.
  • Внутренний Claw Bench (5 доменов: код, интеграция с мессенджерами, ресёрч и аналитика, планировщик задач, память) показывает рост K2.6 над K2.5 по:
    • доле успешно завершённых задач;
    • точности вызовов инструментов.
  1. Claw Groups: «приведи своих агентов»
  • K2.6 расширяет идею Swarm до Claw Groups (исследовательский превью-режим):
    • в группе могут работать несколько агентов и людей;
    • агенты могут жить на любых устройствах и в любых облаках;
    • каждый несёт свои инструменты, навыки и память.
  • K2.6 выступает координатором:
    • распределяет задачи по агентам с подходящими скиллами;
    • отслеживает зависания и ошибки;
    • перераспределяет задачи и управляет жизненным циклом результата — от старта до валидации и завершения.
  • Команда Kimi уже использует Claw Groups для собственного маркетинга:
    • специализированные агенты Demo Makers, Benchmark Makers, Social Media Agents, Video Makers;
    • K2.6 синхронизирует их работу, обмен промежуточными результатами и упаковку итоговых материалов.
  1. Контекст и режимы генерации
  • Контекст K2.6 — до 262 144 токенов.
  • В бенчмарках K2.6 работала в режиме thinking с параметрами по умолчанию:
    • temperature = 1.0;
    • top-p = 1.0.
  • Для Humanity’s Last Exam (HLE) с инструментами:
    • максимум генерации — 262 144 токенов;
    • лимит на шаг — 49 152 токена;
    • используется простая стратегия контекста: при переполнении остаётся только последний раунд сообщений с инструментами.
  1. Бенчмарки: где K2.6 силён

Ниже — выборка ключевых результатов (все значения — проценты или скор, чем больше, тем лучше), с прямым сравнением с K2.5.

Агентные и tool‑based задачи

  • Humanity’s Last Exam (HLE-Full) с инструментами:
    • K2.6 — 54,0;
    • GPT-5.4 xhigh — 52,1;
    • Claude Opus 4.6 max effort — 53,0;
    • Gemini 3.1 Pro high thinking — 51,4;
    • K2.5 — 50,2.
  • BrowseComp:
    • K2.6 — 83,2;
    • GPT-5.4 — 82,7;
    • Claude Opus 4.6 — 83,7;
    • Gemini 3.1 Pro — 85,9;
    • K2.5 — 74,9.
  • BrowseComp (agent swarm):
    • K2.6 — 86,3;
    • K2.5 — 78,4.
  • DeepSearchQA (f1-score):
    • K2.6 — 92,5;
    • GPT-5.4 — 78,6;
    • Claude Opus 4.6 — 91,3;
    • Gemini 3.1 Pro — 81,9;
    • K2.5 — 89,0.
  • DeepSearchQA (accuracy):
    • K2.6 — 83,0;
    • GPT-5.4 — 63,7;
    • Claude Opus 4.6 — 80,6;
    • Gemini 3.1 Pro — 60,2;
    • K2.5 — 77,1.
  • WideSearch (item-f1):
    • K2.6 — 80,8;
    • K2.5 — 72,7.
  • Toolathlon:
    • K2.6 — 50,0;
    • GPT-5.4 — 54,6;
    • Claude Opus 4.6 — 47,2;
    • Gemini 3.1 Pro — 48,8;
    • K2.5 — 27,8.
  • MCPMark:
    • K2.6 — 55,9;
    • GPT-5.4 — 62,5*;
    • Claude Opus 4.6 — 56,7*;
    • Gemini 3.1 Pro — 55,9*;
    • K2.5 — 29,5.

Claw / агентные пайплайны

  • Claw Eval (pass^3):
    • K2.6 — 62,3;
    • GPT-5.4 — 60,3;
    • Claude Opus 4.6 — 70,4;
    • Gemini 3.1 Pro — 57,8;
    • K2.5 — 52,3.
  • Claw Eval (pass@3):
    • K2.6 — 80,9;
    • GPT-5.4 — 78,4;
    • Claude Opus 4.6 — 82,4;
    • Gemini 3.1 Pro — 82,9;
    • K2.5 — 75,4.
  • APEX-Agents:
    • K2.6 — 27,9;
    • GPT-5.4 — 33,3;
    • Claude Opus 4.6 — 33,0;
    • Gemini 3.1 Pro — 32,0;
    • K2.5 — 11,5.

Coding и SWE‑бенчмарки

  • Terminal-Bench 2.0 (Terminus-2):
    • K2.6 — 66,7;
    • GPT-5.4 — 65,4*;
    • Claude Opus 4.6 — 65,4;
    • Gemini 3.1 Pro — 68,5;
    • K2.5 — 50,8.
  • SWE-Bench Pro:
    • K2.6 — 58,6;
    • GPT-5.4 — 57,7;
    • Claude Opus 4.6 — 53,4;
    • Gemini 3.1 Pro — 54,2;
    • K2.5 — 50,7.
  • SWE-Bench Multilingual:
    • K2.6 — 76,7;
    • Claude Opus 4.6 — 77,8;
    • Gemini 3.1 Pro — 76,9*;
    • K2.5 — 73,0.
  • SWE-Bench Verified:
    • K2.6 — 80,2;
    • Claude Opus 4.6 — 80,8;
    • Gemini 3.1 Pro — 80,6;
    • K2.5 — 76,8.
  • SciCode:
    • K2.6 — 52,2;
    • GPT-5.4 — 56,6;
    • Claude Opus 4.6 — 51,9;
    • Gemini 3.1 Pro — 58,9;
    • K2.5 — 48,7.
  • OJBench (python):
    • K2.6 — 60,6;
    • Claude Opus 4.6 — 60,3;
    • Gemini 3.1 Pro — 70,7;
    • K2.5 — 54,7.
  • LiveCodeBench (v6):
    • K2.6 — 89,6;
    • Claude Opus 4.6 — 88,8;
    • Gemini 3.1 Pro — 91,7;
    • K2.5 — 85,0.

Reasoning и знания

  • HLE-Full (без инструментов):
    • K2.6 — 34,7;
    • GPT-5.4 — 39,8;
    • Claude Opus 4.6 — 40,0;
    • Gemini 3.1 Pro — 44,4;
    • K2.5 — 30,1.
  • Humanity’s Last Exam (text-only subset):
    • K2.6 — 36,4% без инструментов;
    • 55,5% с инструментами.
  • AIME 2026:
    • K2.6 — 96,4;
    • GPT-5.4 — 99,2;
    • Claude Opus 4.6 — 96,7;
    • Gemini 3.1 Pro — 98,3;
    • K2.5 — 95,8.
  • HMMT 2026 (Feb):
    • K2.6 — 92,7;
    • GPT-5.4 — 97,7;
    • Claude Opus 4.6 — 96,2;
    • Gemini 3.1 Pro — 94,7;
    • K2.5 — 87,1.
  • IMO-AnswerBench:
    • K2.6 — 86,0;
    • GPT-5.4 — 91,4;
    • Claude Opus 4.6 — 75,3;
    • Gemini 3.1 Pro — 91,0*;
    • K2.5 — 81,8.
  • GPQA-Diamond:
    • K2.6 — 90,5;
    • GPT-5.4 — 92,8;
    • Claude Opus 4.6 — 91,3;
    • Gemini 3.1 Pro — 94,3;
    • K2.5 — 87,6.

Vision и мультимодальность

  • MMMU-Pro:
    • K2.6 — 79,4;
    • GPT-5.4 — 81,2;
    • Claude Opus 4.6 — 73,9;
    • Gemini 3.1 Pro — 83,0*;
    • K2.5 — 78,5.
  • MMMU-Pro с python:
    • K2.6 — 80,1;
    • GPT-5.4 — 82,1;
    • Claude Opus 4.6 — 77,3;
    • Gemini 3.1 Pro — 85,3*;
    • K2.5 — 77,7.
  • CharXiv (RQ):
    • K2.6 — 80,4;
    • GPT-5.4 — 82,8*;
    • Claude Opus 4.6 — 69,1;
    • Gemini 3.1 Pro — 80,2*;
    • K2.5 — 77,5.
  • CharXiv (RQ) с python:
    • K2.6 — 86,7;
    • GPT-5.4 — 90,0*;
    • Claude Opus 4.6 — 84,7;
    • Gemini 3.1 Pro — 89,9*;
    • K2.5 — 78,7.
  • MathVision:
    • K2.6 — 87,4;
    • GPT-5.4 — 92,0*;
    • Claude Opus 4.6 — 71,2*;
    • Gemini 3.1 Pro — 89,8*;
    • K2.5 — 84,2.
  • MathVision с python:
    • K2.6 — 93,2;
    • GPT-5.4 — 96,1*;
    • Claude Opus 4.6 — 84,6*;
    • Gemini 3.1 Pro — 95,7*;
    • K2.5 — 85,0.
  • BabyVision:
    • K2.6 — 39,8;
    • GPT-5.4 — 49,7;
    • Claude Opus 4.6 — 14,8;
    • Gemini 3.1 Pro — 51,6;
    • K2.5 — 36,5.
  • BabyVision с python:
    • K2.6 — 68,5;
    • GPT-5.4 — 80,2*;
    • Claude Opus 4.6 — 38,4*;
    • Gemini 3.1 Pro — 68,3*;
    • K2.5 — 40,5.
  • V* с python:
    • K2.6 — 96,9;
    • GPT-5.4 — 98,4*;
    • Claude Opus 4.6 — 86,4*;
    • Gemini 3.1 Pro — 96,9*;
    • K2.5 — 86,9.

Для воспроизведения результатов Kimi рекомендует использовать официальный API и, если вы работаете через сторонних провайдеров, ориентироваться на Kimi Vendor Verifier.

Как это работает

Длинный контекст и управление памятью

K2.6 умеет держать до 262 144 токенов контекста. Это даёт возможность:

  • вести многочасовые сессии без постоянной пересборки промпта;
  • хранить в памяти крупный кодовый репозиторий, документацию и историю вызовов инструментов.

При работе с длинными задачами, где подключены инструменты (поиск, браузер, код-интерпретатор), K2.6 использует простую, но предсказуемую стратегию:

  • пока контекст не переполнен — хранит всё;
  • как только лимит превышен — оставляет только последний раунд сообщений, связанных с инструментами, и продолжает работу.

Для разных бенчмарков Kimi использует разные режимы управления контекстом:

  • HLE с инструментами — обрезка до последнего раунда tool-сообщений при 262k токенов;
  • BrowseComp — discard-all, как у K2.5 и DeepSeek-V3.2;
  • DeepSearchQA — без контекст-менеджмента, задачи, не влезающие в окно, считаются проваленными;
  • WideSearch — режим «hide tool result», при переполнении также сохраняется только последний раунд инструментов.

Агентная архитектура и Swarm

K2.6 выступает не только как «модель по запросу», но и как координатор роев агентов.

Agent Swarm на K2.6:

  • K2.6 разбивает крупную задачу на гетерогенные подзадачи;
  • создаёт подагентов со специализированными ролями;
  • запускает их параллельно (до 300 агентов и 4 000 шагов);
  • собирает результаты и склеивает их в финальный артефакт — документ, сайт, презентацию, таблицу.

Ключевой момент — композиция разных типов работы:

  • поверхностный широкий поиск + глубокий ресёрч;
  • массовый анализ документов + длинное письмо или отчёт;
  • генерация контента в разных форматах параллельно.

Файлы, превращённые в Skills, работают как шаблоны:

  • K2.6 извлекает «ДНК» структуры и стиля документа;
  • запоминает логику аргументации, подачу данных, формат визуализаций;
  • при следующем запросе может сгенерировать новый материал в том же формате.

Claw Groups и оркестрация внешних агентов

Claw Groups строятся поверх тех же идей, но открыты для внешних агентов.

Как это устроено:

  • пользователи подключают агентов с любых устройств (ноутбук, телефон, сервер);
  • каждый агент может использовать разные модели и собственные инструменты;
  • все агенты и люди работают в общем пространстве задач.

Роль K2.6:

  • распределяет задачи по агентам с подходящими навыками и доступными инструментами;
  • мониторит прогресс, ошибки и зависания;
  • при проблемах переназначает подзадачи или пересобирает план;
  • следит за тем, чтобы итоговые результаты были доведены до конца и провалидированы.

Код и инструменты

K2.6 активно использует инструменты:

  • поиск и веб-браузер для ресёрча;
  • code-interpreter для запуска и отладки кода;
  • специализированные утилиты в SWE‑бенчмарках (bash, createfile, insert, view, strreplace, submit).

Kimi тестирует кодовые задачи в среднем по 10 независимых прогонов и усредняет результат, чтобы сгладить случайные флуктуации.

На практике это означает, что K2.6 не просто «дописывает» код, а:

  • планирует серию изменений;
  • вызывает инструменты для запуска и профилирования;
  • смотрит на flame-графы CPU и аллокаций;
  • перестраивает архитектуру (как в кейсе с exchange-core и сменой схемы потоков 4ME+2RE → 2ME+1RE).

Визуальные задачи и мультимодальность

K2.6 обрабатывает визуальный контент и умеет комбинировать его с кодом и текстом:

  • анализирует изображения и сложные схемы (CharXiv, MathVision, BabyVision);
  • использует Python-окружение для вычислений и построения графиков в vision‑бенчмарках;
  • вызывает внешние сервисы генерации изображений и видео, чтобы собирать законченные лендинги.

Kimi Design Bench разбит на четыре типа задач, и K2.6 везде демонстрирует стабильный уровень, близкий к Google AI Studio, особенно в сборке лендингов и креативном программировании.

Что это значит для вас

Для разработчиков и тимлидов

Где K2.6 полезен:

  • длинные рефакторинги и оптимизация:
    • можно поручить модели оптимизацию старого высоконагруженного сервиса, как в примере с exchange-core;
    • K2.6 умеет читать профилировщики, flame-графы и предлагать нетривиальные изменения архитектуры.
  • поддержка мульти-языковых кодовых баз:
    • Rust, Go, Python, фронтенд, DevOps — модель показывает устойчивую генерализацию;
    • полезно, если в компании смешанная инфраструктура.
  • автоматизация рутины через агентов:
    • мониторинг и инцидент-менеджмент 24/7;
    • регулярные отчёты, проверка логов, реакция на алерты.
  • агентные пайплайны для сложных задач:
    • поиск, анализ, сводка и генерация документов в одном прогоне;
    • полезно для внутренних knowledge‑баз, отчётов, R&D.

Где осторожнее:

  • задачи, где критична абсолютная точность reasoning (сложная математика на уровне лучших результатов AIME/IMO), лучше перепроверять — по ряду reasoning‑бенчмарков GPT-5.4 и Gemini 3.1 Pro всё ещё выше;
  • если у вас уже выстроен стек строго под одну проприетарную модель, придётся подумать о миграции и совместимости инструментов.

Для фронтенд‑ и full‑stack‑разработчиков

K2.6 особенно силён в задачах:

  • генерация лендингов и маркетинговых страниц из текстового описания:
    • продуманные hero-секции;
    • анимации, включая scroll effects;
    • аккуратная структура и сетка.
  • прототипирование full‑stack‑функций:
    • простая аутентификация;
    • формы и взаимодействие с пользователем;
    • лёгкие операции с базой данных (логирование, сессии).

Практическая схема работы:

  • описываете задачу и стек (например, Next.js + Tailwind + PostgreSQL);
  • просите K2.6 собрать архитектуру, схемы таблиц и базовый UI;
  • дорабатываете руками уже на уровне деталей, а не с нуля.

Если вы строите фронтенд‑агентов (например, генерация UI по ТЗ через API), K2.6 даёт хороший баланс:

  • высокая точность на SWE‑бенчмарках;
  • приличные показатели в LiveCodeBench и OJBench;
  • улучшенная дисциплина вызова инструментов (96,60% успешных вызовов в CodeBuddy).

Для дата-сайентистов, аналитиков и ресёрч‑команд

Где K2.6 помогает:

  • построение сложных ресёрч‑воркфлоу через Swarm:
    • от сбора данных и статей до финальной презентации и таблиц;
    • особенно, если нужны повторно используемые skills на основе эталонных документов.
  • анализ научных статей и построение датасетов:
    • пример с астрофизикой показывает, что модель может вытащить структуру аргументации и визуализации и превратить её в 20 000+ строк данных и 14 графиков.
  • автоматизированный ресёрч по рынку и конкурентам:
    • поиск компаний по картам, сайтам, каталогам;
    • генерация лендингов и базовых материалов.

Где есть ограничения:

  • для задач, где критичны формальные доказательства или точные вычисления, лучше использовать K2.6 как помощника, а не единственный источник истины;
  • если вам важна максимальная точность на специфичных reasoning‑бенчмарках, стоит сравнивать K2.6 с GPT-5.4 и Gemini 3.1 Pro под вашу задачу.

Для продакта и менеджеров

K2.6 пригодится, если вы:

  • планируете запускать агентные продукты (постоянно работающие ассистенты в коде, поддержке, операциях);
  • хотите автоматизировать маркетинговый конвейер:
    • генерация демо;
    • сборка бенчмарков;
    • посты в соцсетях;
    • видео и лендинги.

Команда Kimi сама использует Claw Groups для такого пайплайна, так что это не только демо, но и рабочий сценарий.

Доступность из России

Kimi K2.6 доступен через Kimi.com, приложение Kimi, API и Kimi Code. Для пользователей из России может потребоваться VPN, так как доступ к зарубежным ИИ‑сервисам иногда ограничен на уровне провайдеров или самих платформ. Конкретная политика доступа зависит от времени и настроек сервиса, её нужно проверять отдельно.

Место на рынке

Kimi позиционирует K2.6 как open source‑модель с сильным уклоном в код и агентов, которая по ряду задач догоняет и местами обгоняет крупные закрытые модели.

Если смотреть по цифрам:

  • Coding и SWE:

    • K2.6 на уровне или чуть выше GPT-5.4 и Claude Opus 4.6 на Terminal-Bench 2.0 и SWE-Bench Pro;
    • в LiveCodeBench (v6) K2.6 (89,6) чуть ниже Gemini 3.1 Pro (91,7), но выше Claude Opus 4.6 (88,8);
    • относительно K2.5 прирост заметный: +15% на внутренних бенчмарках одного из партнёров, +12% точности генерации кода у CodeBuddy, +18% устойчивости к длинному контексту.
  • Агентные задачи и инструменты:

    • на HLE-Full с инструментами K2.6 (54,0) опережает GPT-5.4 (52,1) и Gemini 3.1 Pro (51,4), немного уступая Claude Opus 4.6 (53,0) по отдельным метрикам;
    • на DeepSearchQA K2.6 показывает очень высокий f1 (92,5) и accuracy (83,0), заметно выше GPT-5.4 и Gemini 3.1 Pro в указанных конфигурациях;
    • Toolathlon и MCPMark показывают, что K2.6 конкурентен, хотя GPT-5.4 иногда выше.
  • Reasoning и знания:

    • на AIME 2026 и GPQA-Diamond K2.6 немного уступает GPT-5.4 и Gemini 3.1 Pro, но опережает K2.5;
    • на IMO-AnswerBench K2.6 (86,0) выше K2.5 (81,8) и Claude Opus 4.6 (75,3), но ниже GPT-5.4 и Gemini 3.1 Pro.
  • Vision:

    • K2.6 стабильно держится рядом с GPT-5.4 и Gemini 3.1 Pro по многим vision‑бенчмаркам, заметно обгоняя K2.5 и Claude Opus 4.6 на части задач.

Ключевой аргумент Kimi — соотношение цена/качество для открытой модели. В отзывах партнёров регулярно звучит, что K2.6 даёт SOTA‑уровень по агентным и кодовым задачам «за часть стоимости» дорогих закрытых моделей. Конкретных цен в материале нет, но акцент именно на экономике при длительных агентных сценариях.

Если коротко:

  • если вам нужна открытая модель для кода, длинных сессий и роев агентов — K2.6 выглядит одним из самых сильных кандидатов;
  • если вы ориентируетесь на максимум по отдельным reasoning‑бенчмаркам любой ценой, имеет смысл сравнивать с GPT-5.4 и Gemini 3.1 Pro под свою задачу.

Как запустить и воспроизвести бенчмарки

Kimi рекомендует для точного воспроизведения результатов использовать официальный API и настройки, близкие к тем, что использовались в отчёте.

Общие параметры тестирования K2.6:

  • режим: thinking mode;
  • temperature = 1.0;
  • top-p = 1.0;
  • контекст: 262 144 токенов.

Дополнительные детали из отчёта:

  • для HLE и reasoning‑задач — максимум 98 304 токена генерации, для HLE-Full с инструментами — до 262 144 токенов с лимитом 49 152 токена на шаг;
  • Claw Eval — версия 1.1, max-tokens-per-step = 16 384;
  • APEX-Agents — 452 задачи из 480 публичных (исключены Investment Banking Worlds 244 и 246 из-за внешних зависимостей);
  • SWE‑бенчмарки — фреймворк на базе SWE-agent с минимальным набором инструментов (bash, createfile, insert, view, strreplace, submit), результаты усреднены по 10 прогонов;
  • Terminal-Bench 2.0 — стандартный фреймворк Terminus-2 и JSON‑парсер в режиме preserve thinking.

Для выбора сторонних провайдеров, через которых можно вызвать K2.6, Kimi предлагает ориентироваться на Kimi Vendor Verifier: https://kimi.com/blog/kimi-vendor-verifier

Если вы интегрируете K2.6 в свои пайплайны, имеет смысл:

  • повторить ключевые настройки (температура, top-p, лимиты токенов);
  • включить thinking mode, если он доступен в вашем провайдере;
  • явно настроить стратегию управления контекстом под ваш сценарий (полное сохранение, обрезка до последних сообщений с инструментами или собственная логика).

Читайте также