- Дата публикации
Kimi K2.6: открытый ИИ-разработчик, который тянет длинные проекты и рои агентов
Что нового
Kimi открыла исходники своей новой модели Kimi K2.6. Это большой языковой ИИ с явным упором на код, длинные сценарии и работу в виде роя агентов.
Где доступен:
- веб-интерфейс Kimi.com;
- приложение Kimi;
- API;
- среда Kimi Code.
Главные изменения по сравнению с K2.5:
- Код и длинные сессии
- Внутренний бенчмарк Kimi Code Bench (сложные end-to-end задачи) — заметный рост качества по сравнению с K2.5 (точные цифры не раскрывают, но ниже есть метрики от партнёров).
- На внутренних оценках CodeBuddy:
- точность генерации кода +12%;
- стабильность на длинном контексте +18%;
- успешные вызовы инструментов — 96,60%.
- На Next.js-бенчмарке у одного из партнёров — более 50% прироста к K2.5.
- Поддержка сложных задач на Rust, Go, Python, фронтенд, DevOps и оптимизация производительности.
- Реальные длинные инженерные эксперименты
- Локальный запуск модели Qwen3.5-0.8B на Mac:
- язык реализации инференса — Zig (очень нишевый язык);
- более 4 000 вызовов инструментов;
- более 12 часов непрерывной работы;
- 14 итераций оптимизации;
- скорость выросла с ~15 до ~193 токенов/с;
- итоговая скорость примерно на 20% выше, чем у LM Studio.
- Оптимизация ядра биржевого движка exchange-core (open source, 8 лет кода):
- 13 часов непрерывной работы агента;
- 12 стратегий оптимизации;
- более 1 000 вызовов инструментов;
- изменено более 4 000 строк кода;
- переразведена топология потоков с 4ME+2RE на 2ME+1RE;
- медианный throughput вырос на 185% (с 0,43 до 1,24 MT/s);
- производительность по throughput выросла на 133% (с 1,23 до 2,86 MT/s).
- Агентные сценарии и рои агентов (Agent Swarm)
- Новая версия Agent Swarm на базе K2.6:
- горизонтальное масштабирование до 300 подагентов одновременно;
- до 4 000 согласованных шагов;
- раньше у K2.5 было до 100 подагентов и 1 500 шагов.
- Умеет параллельно собирать документы, сайты, презентации и таблицы в одном прогоне.
- Может превращать любые качественные файлы (PDF, презентации, таблицы, Word) в Skills — зафиксированный стиль и структура, которые можно переиспользовать.
Примеры использования Swarm:
- 5 количественных стратегий по 100 полупроводниковым активам:
- результат — презентация в стиле McKinsey, набор повторно используемых навыков, подробные финансовые таблицы и полный executive-доклад.
- Астрофизическая статья с насыщенной визуализацией:
- превращена в академический skill;
- итог — 40-страничная исследовательская работа на 7 000 слов, датасет с 20 000+ записей и 14 графиков «астрономического» уровня.
- Автоподбор работы по резюме:
- на базе одного загруженного CV K2.6 создала 100 подагентов;
- подобрала 100 релевантных позиций в Калифорнии;
- выдала структурированный список вакансий и 100 кастомизированных резюме.
- Локальный бизнес:
- нашла 30 магазинов в Лос-Анджелесе без сайтов по Google Maps;
- сгенерировала для каждого лендинг с высокой конверсией.
- Фронтенд и простые full‑stack сценарии
- Из простого промпта K2.6 собирает полноценный интерфейс:
- структурированные макеты;
- продуманные hero-секции;
- интерактивные элементы и анимации, включая эффекты при скролле.
- Умеет вызывать инструменты генерации изображений и видео:
- создаёт визуально цельные ассеты;
- улучшает качество и выразительность hero-блоков.
- Поддерживает простые full‑stack‑воркфлоу:
- аутентификация;
- взаимодействие с пользователем;
- операции с БД для лёгких задач (лог транзакций, управление сессиями и т.п.).
Внутренний Kimi Design Bench (4 категории: задачи с визуальным входом, сборка лендингов, full‑stack‑приложения, креативное программирование) показывает, что K2.6 уверенно держится на уровне Google AI Studio.
- Проактивные и длительные агенты
- K2.6 управляет агентами OpenClaw и Hermes, которые работают 24/7 и ходят по нескольким приложениям.
- Реальный кейс: RL-инфраструктурная команда запустила агента на K2.6 на 5 дней подряд.
- агент занимался мониторингом, реагированием на инциденты и операционкой;
- показал устойчивый контекст, параллельную работу с задачами и полный цикл от алерта до решения.
- Внутренний Claw Bench (5 доменов: код, интеграция с мессенджерами, ресёрч и аналитика, планировщик задач, память) показывает рост K2.6 над K2.5 по:
- доле успешно завершённых задач;
- точности вызовов инструментов.
- Claw Groups: «приведи своих агентов»
- K2.6 расширяет идею Swarm до Claw Groups (исследовательский превью-режим):
- в группе могут работать несколько агентов и людей;
- агенты могут жить на любых устройствах и в любых облаках;
- каждый несёт свои инструменты, навыки и память.
- K2.6 выступает координатором:
- распределяет задачи по агентам с подходящими скиллами;
- отслеживает зависания и ошибки;
- перераспределяет задачи и управляет жизненным циклом результата — от старта до валидации и завершения.
- Команда Kimi уже использует Claw Groups для собственного маркетинга:
- специализированные агенты Demo Makers, Benchmark Makers, Social Media Agents, Video Makers;
- K2.6 синхронизирует их работу, обмен промежуточными результатами и упаковку итоговых материалов.
- Контекст и режимы генерации
- Контекст K2.6 — до 262 144 токенов.
- В бенчмарках K2.6 работала в режиме thinking с параметрами по умолчанию:
- temperature = 1.0;
- top-p = 1.0.
- Для Humanity’s Last Exam (HLE) с инструментами:
- максимум генерации — 262 144 токенов;
- лимит на шаг — 49 152 токена;
- используется простая стратегия контекста: при переполнении остаётся только последний раунд сообщений с инструментами.
- Бенчмарки: где K2.6 силён
Ниже — выборка ключевых результатов (все значения — проценты или скор, чем больше, тем лучше), с прямым сравнением с K2.5.
Агентные и tool‑based задачи
- Humanity’s Last Exam (HLE-Full) с инструментами:
- K2.6 — 54,0;
- GPT-5.4 xhigh — 52,1;
- Claude Opus 4.6 max effort — 53,0;
- Gemini 3.1 Pro high thinking — 51,4;
- K2.5 — 50,2.
- BrowseComp:
- K2.6 — 83,2;
- GPT-5.4 — 82,7;
- Claude Opus 4.6 — 83,7;
- Gemini 3.1 Pro — 85,9;
- K2.5 — 74,9.
- BrowseComp (agent swarm):
- K2.6 — 86,3;
- K2.5 — 78,4.
- DeepSearchQA (f1-score):
- K2.6 — 92,5;
- GPT-5.4 — 78,6;
- Claude Opus 4.6 — 91,3;
- Gemini 3.1 Pro — 81,9;
- K2.5 — 89,0.
- DeepSearchQA (accuracy):
- K2.6 — 83,0;
- GPT-5.4 — 63,7;
- Claude Opus 4.6 — 80,6;
- Gemini 3.1 Pro — 60,2;
- K2.5 — 77,1.
- WideSearch (item-f1):
- K2.6 — 80,8;
- K2.5 — 72,7.
- Toolathlon:
- K2.6 — 50,0;
- GPT-5.4 — 54,6;
- Claude Opus 4.6 — 47,2;
- Gemini 3.1 Pro — 48,8;
- K2.5 — 27,8.
- MCPMark:
- K2.6 — 55,9;
- GPT-5.4 — 62,5*;
- Claude Opus 4.6 — 56,7*;
- Gemini 3.1 Pro — 55,9*;
- K2.5 — 29,5.
Claw / агентные пайплайны
- Claw Eval (pass^3):
- K2.6 — 62,3;
- GPT-5.4 — 60,3;
- Claude Opus 4.6 — 70,4;
- Gemini 3.1 Pro — 57,8;
- K2.5 — 52,3.
- Claw Eval (pass@3):
- K2.6 — 80,9;
- GPT-5.4 — 78,4;
- Claude Opus 4.6 — 82,4;
- Gemini 3.1 Pro — 82,9;
- K2.5 — 75,4.
- APEX-Agents:
- K2.6 — 27,9;
- GPT-5.4 — 33,3;
- Claude Opus 4.6 — 33,0;
- Gemini 3.1 Pro — 32,0;
- K2.5 — 11,5.
Coding и SWE‑бенчмарки
- Terminal-Bench 2.0 (Terminus-2):
- K2.6 — 66,7;
- GPT-5.4 — 65,4*;
- Claude Opus 4.6 — 65,4;
- Gemini 3.1 Pro — 68,5;
- K2.5 — 50,8.
- SWE-Bench Pro:
- K2.6 — 58,6;
- GPT-5.4 — 57,7;
- Claude Opus 4.6 — 53,4;
- Gemini 3.1 Pro — 54,2;
- K2.5 — 50,7.
- SWE-Bench Multilingual:
- K2.6 — 76,7;
- Claude Opus 4.6 — 77,8;
- Gemini 3.1 Pro — 76,9*;
- K2.5 — 73,0.
- SWE-Bench Verified:
- K2.6 — 80,2;
- Claude Opus 4.6 — 80,8;
- Gemini 3.1 Pro — 80,6;
- K2.5 — 76,8.
- SciCode:
- K2.6 — 52,2;
- GPT-5.4 — 56,6;
- Claude Opus 4.6 — 51,9;
- Gemini 3.1 Pro — 58,9;
- K2.5 — 48,7.
- OJBench (python):
- K2.6 — 60,6;
- Claude Opus 4.6 — 60,3;
- Gemini 3.1 Pro — 70,7;
- K2.5 — 54,7.
- LiveCodeBench (v6):
- K2.6 — 89,6;
- Claude Opus 4.6 — 88,8;
- Gemini 3.1 Pro — 91,7;
- K2.5 — 85,0.
Reasoning и знания
- HLE-Full (без инструментов):
- K2.6 — 34,7;
- GPT-5.4 — 39,8;
- Claude Opus 4.6 — 40,0;
- Gemini 3.1 Pro — 44,4;
- K2.5 — 30,1.
- Humanity’s Last Exam (text-only subset):
- K2.6 — 36,4% без инструментов;
- 55,5% с инструментами.
- AIME 2026:
- K2.6 — 96,4;
- GPT-5.4 — 99,2;
- Claude Opus 4.6 — 96,7;
- Gemini 3.1 Pro — 98,3;
- K2.5 — 95,8.
- HMMT 2026 (Feb):
- K2.6 — 92,7;
- GPT-5.4 — 97,7;
- Claude Opus 4.6 — 96,2;
- Gemini 3.1 Pro — 94,7;
- K2.5 — 87,1.
- IMO-AnswerBench:
- K2.6 — 86,0;
- GPT-5.4 — 91,4;
- Claude Opus 4.6 — 75,3;
- Gemini 3.1 Pro — 91,0*;
- K2.5 — 81,8.
- GPQA-Diamond:
- K2.6 — 90,5;
- GPT-5.4 — 92,8;
- Claude Opus 4.6 — 91,3;
- Gemini 3.1 Pro — 94,3;
- K2.5 — 87,6.
Vision и мультимодальность
- MMMU-Pro:
- K2.6 — 79,4;
- GPT-5.4 — 81,2;
- Claude Opus 4.6 — 73,9;
- Gemini 3.1 Pro — 83,0*;
- K2.5 — 78,5.
- MMMU-Pro с python:
- K2.6 — 80,1;
- GPT-5.4 — 82,1;
- Claude Opus 4.6 — 77,3;
- Gemini 3.1 Pro — 85,3*;
- K2.5 — 77,7.
- CharXiv (RQ):
- K2.6 — 80,4;
- GPT-5.4 — 82,8*;
- Claude Opus 4.6 — 69,1;
- Gemini 3.1 Pro — 80,2*;
- K2.5 — 77,5.
- CharXiv (RQ) с python:
- K2.6 — 86,7;
- GPT-5.4 — 90,0*;
- Claude Opus 4.6 — 84,7;
- Gemini 3.1 Pro — 89,9*;
- K2.5 — 78,7.
- MathVision:
- K2.6 — 87,4;
- GPT-5.4 — 92,0*;
- Claude Opus 4.6 — 71,2*;
- Gemini 3.1 Pro — 89,8*;
- K2.5 — 84,2.
- MathVision с python:
- K2.6 — 93,2;
- GPT-5.4 — 96,1*;
- Claude Opus 4.6 — 84,6*;
- Gemini 3.1 Pro — 95,7*;
- K2.5 — 85,0.
- BabyVision:
- K2.6 — 39,8;
- GPT-5.4 — 49,7;
- Claude Opus 4.6 — 14,8;
- Gemini 3.1 Pro — 51,6;
- K2.5 — 36,5.
- BabyVision с python:
- K2.6 — 68,5;
- GPT-5.4 — 80,2*;
- Claude Opus 4.6 — 38,4*;
- Gemini 3.1 Pro — 68,3*;
- K2.5 — 40,5.
- V* с python:
- K2.6 — 96,9;
- GPT-5.4 — 98,4*;
- Claude Opus 4.6 — 86,4*;
- Gemini 3.1 Pro — 96,9*;
- K2.5 — 86,9.
Для воспроизведения результатов Kimi рекомендует использовать официальный API и, если вы работаете через сторонних провайдеров, ориентироваться на Kimi Vendor Verifier.
Как это работает
Длинный контекст и управление памятью
K2.6 умеет держать до 262 144 токенов контекста. Это даёт возможность:
- вести многочасовые сессии без постоянной пересборки промпта;
- хранить в памяти крупный кодовый репозиторий, документацию и историю вызовов инструментов.
При работе с длинными задачами, где подключены инструменты (поиск, браузер, код-интерпретатор), K2.6 использует простую, но предсказуемую стратегию:
- пока контекст не переполнен — хранит всё;
- как только лимит превышен — оставляет только последний раунд сообщений, связанных с инструментами, и продолжает работу.
Для разных бенчмарков Kimi использует разные режимы управления контекстом:
- HLE с инструментами — обрезка до последнего раунда tool-сообщений при 262k токенов;
- BrowseComp — discard-all, как у K2.5 и DeepSeek-V3.2;
- DeepSearchQA — без контекст-менеджмента, задачи, не влезающие в окно, считаются проваленными;
- WideSearch — режим «hide tool result», при переполнении также сохраняется только последний раунд инструментов.
Агентная архитектура и Swarm
K2.6 выступает не только как «модель по запросу», но и как координатор роев агентов.
Agent Swarm на K2.6:
- K2.6 разбивает крупную задачу на гетерогенные подзадачи;
- создаёт подагентов со специализированными ролями;
- запускает их параллельно (до 300 агентов и 4 000 шагов);
- собирает результаты и склеивает их в финальный артефакт — документ, сайт, презентацию, таблицу.
Ключевой момент — композиция разных типов работы:
- поверхностный широкий поиск + глубокий ресёрч;
- массовый анализ документов + длинное письмо или отчёт;
- генерация контента в разных форматах параллельно.
Файлы, превращённые в Skills, работают как шаблоны:
- K2.6 извлекает «ДНК» структуры и стиля документа;
- запоминает логику аргументации, подачу данных, формат визуализаций;
- при следующем запросе может сгенерировать новый материал в том же формате.
Claw Groups и оркестрация внешних агентов
Claw Groups строятся поверх тех же идей, но открыты для внешних агентов.
Как это устроено:
- пользователи подключают агентов с любых устройств (ноутбук, телефон, сервер);
- каждый агент может использовать разные модели и собственные инструменты;
- все агенты и люди работают в общем пространстве задач.
Роль K2.6:
- распределяет задачи по агентам с подходящими навыками и доступными инструментами;
- мониторит прогресс, ошибки и зависания;
- при проблемах переназначает подзадачи или пересобирает план;
- следит за тем, чтобы итоговые результаты были доведены до конца и провалидированы.
Код и инструменты
K2.6 активно использует инструменты:
- поиск и веб-браузер для ресёрча;
- code-interpreter для запуска и отладки кода;
- специализированные утилиты в SWE‑бенчмарках (bash, createfile, insert, view, strreplace, submit).
Kimi тестирует кодовые задачи в среднем по 10 независимых прогонов и усредняет результат, чтобы сгладить случайные флуктуации.
На практике это означает, что K2.6 не просто «дописывает» код, а:
- планирует серию изменений;
- вызывает инструменты для запуска и профилирования;
- смотрит на flame-графы CPU и аллокаций;
- перестраивает архитектуру (как в кейсе с exchange-core и сменой схемы потоков 4ME+2RE → 2ME+1RE).
Визуальные задачи и мультимодальность
K2.6 обрабатывает визуальный контент и умеет комбинировать его с кодом и текстом:
- анализирует изображения и сложные схемы (CharXiv, MathVision, BabyVision);
- использует Python-окружение для вычислений и построения графиков в vision‑бенчмарках;
- вызывает внешние сервисы генерации изображений и видео, чтобы собирать законченные лендинги.
Kimi Design Bench разбит на четыре типа задач, и K2.6 везде демонстрирует стабильный уровень, близкий к Google AI Studio, особенно в сборке лендингов и креативном программировании.
Что это значит для вас
Для разработчиков и тимлидов
Где K2.6 полезен:
- длинные рефакторинги и оптимизация:
- можно поручить модели оптимизацию старого высоконагруженного сервиса, как в примере с exchange-core;
- K2.6 умеет читать профилировщики, flame-графы и предлагать нетривиальные изменения архитектуры.
- поддержка мульти-языковых кодовых баз:
- Rust, Go, Python, фронтенд, DevOps — модель показывает устойчивую генерализацию;
- полезно, если в компании смешанная инфраструктура.
- автоматизация рутины через агентов:
- мониторинг и инцидент-менеджмент 24/7;
- регулярные отчёты, проверка логов, реакция на алерты.
- агентные пайплайны для сложных задач:
- поиск, анализ, сводка и генерация документов в одном прогоне;
- полезно для внутренних knowledge‑баз, отчётов, R&D.
Где осторожнее:
- задачи, где критична абсолютная точность reasoning (сложная математика на уровне лучших результатов AIME/IMO), лучше перепроверять — по ряду reasoning‑бенчмарков GPT-5.4 и Gemini 3.1 Pro всё ещё выше;
- если у вас уже выстроен стек строго под одну проприетарную модель, придётся подумать о миграции и совместимости инструментов.
Для фронтенд‑ и full‑stack‑разработчиков
K2.6 особенно силён в задачах:
- генерация лендингов и маркетинговых страниц из текстового описания:
- продуманные hero-секции;
- анимации, включая scroll effects;
- аккуратная структура и сетка.
- прототипирование full‑stack‑функций:
- простая аутентификация;
- формы и взаимодействие с пользователем;
- лёгкие операции с базой данных (логирование, сессии).
Практическая схема работы:
- описываете задачу и стек (например, Next.js + Tailwind + PostgreSQL);
- просите K2.6 собрать архитектуру, схемы таблиц и базовый UI;
- дорабатываете руками уже на уровне деталей, а не с нуля.
Если вы строите фронтенд‑агентов (например, генерация UI по ТЗ через API), K2.6 даёт хороший баланс:
- высокая точность на SWE‑бенчмарках;
- приличные показатели в LiveCodeBench и OJBench;
- улучшенная дисциплина вызова инструментов (96,60% успешных вызовов в CodeBuddy).
Для дата-сайентистов, аналитиков и ресёрч‑команд
Где K2.6 помогает:
- построение сложных ресёрч‑воркфлоу через Swarm:
- от сбора данных и статей до финальной презентации и таблиц;
- особенно, если нужны повторно используемые skills на основе эталонных документов.
- анализ научных статей и построение датасетов:
- пример с астрофизикой показывает, что модель может вытащить структуру аргументации и визуализации и превратить её в 20 000+ строк данных и 14 графиков.
- автоматизированный ресёрч по рынку и конкурентам:
- поиск компаний по картам, сайтам, каталогам;
- генерация лендингов и базовых материалов.
Где есть ограничения:
- для задач, где критичны формальные доказательства или точные вычисления, лучше использовать K2.6 как помощника, а не единственный источник истины;
- если вам важна максимальная точность на специфичных reasoning‑бенчмарках, стоит сравнивать K2.6 с GPT-5.4 и Gemini 3.1 Pro под вашу задачу.
Для продакта и менеджеров
K2.6 пригодится, если вы:
- планируете запускать агентные продукты (постоянно работающие ассистенты в коде, поддержке, операциях);
- хотите автоматизировать маркетинговый конвейер:
- генерация демо;
- сборка бенчмарков;
- посты в соцсетях;
- видео и лендинги.
Команда Kimi сама использует Claw Groups для такого пайплайна, так что это не только демо, но и рабочий сценарий.
Доступность из России
Kimi K2.6 доступен через Kimi.com, приложение Kimi, API и Kimi Code. Для пользователей из России может потребоваться VPN, так как доступ к зарубежным ИИ‑сервисам иногда ограничен на уровне провайдеров или самих платформ. Конкретная политика доступа зависит от времени и настроек сервиса, её нужно проверять отдельно.
Место на рынке
Kimi позиционирует K2.6 как open source‑модель с сильным уклоном в код и агентов, которая по ряду задач догоняет и местами обгоняет крупные закрытые модели.
Если смотреть по цифрам:
-
Coding и SWE:
- K2.6 на уровне или чуть выше GPT-5.4 и Claude Opus 4.6 на Terminal-Bench 2.0 и SWE-Bench Pro;
- в LiveCodeBench (v6) K2.6 (89,6) чуть ниже Gemini 3.1 Pro (91,7), но выше Claude Opus 4.6 (88,8);
- относительно K2.5 прирост заметный: +15% на внутренних бенчмарках одного из партнёров, +12% точности генерации кода у CodeBuddy, +18% устойчивости к длинному контексту.
-
Агентные задачи и инструменты:
- на HLE-Full с инструментами K2.6 (54,0) опережает GPT-5.4 (52,1) и Gemini 3.1 Pro (51,4), немного уступая Claude Opus 4.6 (53,0) по отдельным метрикам;
- на DeepSearchQA K2.6 показывает очень высокий f1 (92,5) и accuracy (83,0), заметно выше GPT-5.4 и Gemini 3.1 Pro в указанных конфигурациях;
- Toolathlon и MCPMark показывают, что K2.6 конкурентен, хотя GPT-5.4 иногда выше.
-
Reasoning и знания:
- на AIME 2026 и GPQA-Diamond K2.6 немного уступает GPT-5.4 и Gemini 3.1 Pro, но опережает K2.5;
- на IMO-AnswerBench K2.6 (86,0) выше K2.5 (81,8) и Claude Opus 4.6 (75,3), но ниже GPT-5.4 и Gemini 3.1 Pro.
-
Vision:
- K2.6 стабильно держится рядом с GPT-5.4 и Gemini 3.1 Pro по многим vision‑бенчмаркам, заметно обгоняя K2.5 и Claude Opus 4.6 на части задач.
Ключевой аргумент Kimi — соотношение цена/качество для открытой модели. В отзывах партнёров регулярно звучит, что K2.6 даёт SOTA‑уровень по агентным и кодовым задачам «за часть стоимости» дорогих закрытых моделей. Конкретных цен в материале нет, но акцент именно на экономике при длительных агентных сценариях.
Если коротко:
- если вам нужна открытая модель для кода, длинных сессий и роев агентов — K2.6 выглядит одним из самых сильных кандидатов;
- если вы ориентируетесь на максимум по отдельным reasoning‑бенчмаркам любой ценой, имеет смысл сравнивать с GPT-5.4 и Gemini 3.1 Pro под свою задачу.
Как запустить и воспроизвести бенчмарки
Kimi рекомендует для точного воспроизведения результатов использовать официальный API и настройки, близкие к тем, что использовались в отчёте.
Общие параметры тестирования K2.6:
- режим: thinking mode;
- temperature = 1.0;
- top-p = 1.0;
- контекст: 262 144 токенов.
Дополнительные детали из отчёта:
- для HLE и reasoning‑задач — максимум 98 304 токена генерации, для HLE-Full с инструментами — до 262 144 токенов с лимитом 49 152 токена на шаг;
- Claw Eval — версия 1.1, max-tokens-per-step = 16 384;
- APEX-Agents — 452 задачи из 480 публичных (исключены Investment Banking Worlds 244 и 246 из-за внешних зависимостей);
- SWE‑бенчмарки — фреймворк на базе SWE-agent с минимальным набором инструментов (bash, createfile, insert, view, strreplace, submit), результаты усреднены по 10 прогонов;
- Terminal-Bench 2.0 — стандартный фреймворк Terminus-2 и JSON‑парсер в режиме preserve thinking.
Для выбора сторонних провайдеров, через которых можно вызвать K2.6, Kimi предлагает ориентироваться на Kimi Vendor Verifier: https://kimi.com/blog/kimi-vendor-verifier
Если вы интегрируете K2.6 в свои пайплайны, имеет смысл:
- повторить ключевые настройки (температура, top-p, лимиты токенов);
- включить thinking mode, если он доступен в вашем провайдере;
- явно настроить стратегию управления контекстом под ваш сценарий (полное сохранение, обрезка до последних сообщений с инструментами или собственная логика).