Kimi K2.6: открытый ИИ-разработчик, который тянет длинные проекты и рои агентов — VogueTech

Что нового

Kimi открыла исходники своей новой модели Kimi K2.6. Это большой языковой ИИ с явным упором на код, длинные сценарии и работу в виде роя агентов.

Где доступен:

веб-интерфейс Kimi.com;
приложение Kimi;
API;
среда Kimi Code.

Главные изменения по сравнению с K2.5:

Код и длинные сессии

Внутренний бенчмарк Kimi Code Bench (сложные end-to-end задачи) — заметный рост качества по сравнению с K2.5 (точные цифры не раскрывают, но ниже есть метрики от партнёров).
На внутренних оценках CodeBuddy:
- точность генерации кода +12%;
- стабильность на длинном контексте +18%;
- успешные вызовы инструментов — 96,60%.
На Next.js-бенчмарке у одного из партнёров — более 50% прироста к K2.5.
Поддержка сложных задач на Rust, Go, Python, фронтенд, DevOps и оптимизация производительности.

Реальные длинные инженерные эксперименты

Локальный запуск модели Qwen3.5-0.8B на Mac:
- язык реализации инференса — Zig (очень нишевый язык);
- более 4 000 вызовов инструментов;
- более 12 часов непрерывной работы;
- 14 итераций оптимизации;
- скорость выросла с ~15 до ~193 токенов/с;
- итоговая скорость примерно на 20% выше, чем у LM Studio.
Оптимизация ядра биржевого движка exchange-core (open source, 8 лет кода):
- 13 часов непрерывной работы агента;
- 12 стратегий оптимизации;
- более 1 000 вызовов инструментов;
- изменено более 4 000 строк кода;
- переразведена топология потоков с 4ME+2RE на 2ME+1RE;
- медианный throughput вырос на 185% (с 0,43 до 1,24 MT/s);
- производительность по throughput выросла на 133% (с 1,23 до 2,86 MT/s).

Агентные сценарии и рои агентов (Agent Swarm)

Новая версия Agent Swarm на базе K2.6:
- горизонтальное масштабирование до 300 подагентов одновременно;
- до 4 000 согласованных шагов;
- раньше у K2.5 было до 100 подагентов и 1 500 шагов.
Умеет параллельно собирать документы, сайты, презентации и таблицы в одном прогоне.
Может превращать любые качественные файлы (PDF, презентации, таблицы, Word) в Skills — зафиксированный стиль и структура, которые можно переиспользовать.

Примеры использования Swarm:

5 количественных стратегий по 100 полупроводниковым активам:
- результат — презентация в стиле McKinsey, набор повторно используемых навыков, подробные финансовые таблицы и полный executive-доклад.
Астрофизическая статья с насыщенной визуализацией:
- превращена в академический skill;
- итог — 40-страничная исследовательская работа на 7 000 слов, датасет с 20 000+ записей и 14 графиков «астрономического» уровня.
Автоподбор работы по резюме:
- на базе одного загруженного CV K2.6 создала 100 подагентов;
- подобрала 100 релевантных позиций в Калифорнии;
- выдала структурированный список вакансий и 100 кастомизированных резюме.
Локальный бизнес:
- нашла 30 магазинов в Лос-Анджелесе без сайтов по Google Maps;
- сгенерировала для каждого лендинг с высокой конверсией.

Фронтенд и простые full‑stack сценарии

Из простого промпта K2.6 собирает полноценный интерфейс:
- структурированные макеты;
- продуманные hero-секции;
- интерактивные элементы и анимации, включая эффекты при скролле.
Умеет вызывать инструменты генерации изображений и видео:
- создаёт визуально цельные ассеты;
- улучшает качество и выразительность hero-блоков.
Поддерживает простые full‑stack‑воркфлоу:
- аутентификация;
- взаимодействие с пользователем;
- операции с БД для лёгких задач (лог транзакций, управление сессиями и т.п.).

Внутренний Kimi Design Bench (4 категории: задачи с визуальным входом, сборка лендингов, full‑stack‑приложения, креативное программирование) показывает, что K2.6 уверенно держится на уровне Google AI Studio.

Проактивные и длительные агенты

K2.6 управляет агентами OpenClaw и Hermes, которые работают 24/7 и ходят по нескольким приложениям.
Реальный кейс: RL-инфраструктурная команда запустила агента на K2.6 на 5 дней подряд.
- агент занимался мониторингом, реагированием на инциденты и операционкой;
- показал устойчивый контекст, параллельную работу с задачами и полный цикл от алерта до решения.
Внутренний Claw Bench (5 доменов: код, интеграция с мессенджерами, ресёрч и аналитика, планировщик задач, память) показывает рост K2.6 над K2.5 по:
- доле успешно завершённых задач;
- точности вызовов инструментов.

Claw Groups: «приведи своих агентов»

K2.6 расширяет идею Swarm до Claw Groups (исследовательский превью-режим):
- в группе могут работать несколько агентов и людей;
- агенты могут жить на любых устройствах и в любых облаках;
- каждый несёт свои инструменты, навыки и память.
K2.6 выступает координатором:
- распределяет задачи по агентам с подходящими скиллами;
- отслеживает зависания и ошибки;
- перераспределяет задачи и управляет жизненным циклом результата — от старта до валидации и завершения.
Команда Kimi уже использует Claw Groups для собственного маркетинга:
- специализированные агенты Demo Makers, Benchmark Makers, Social Media Agents, Video Makers;
- K2.6 синхронизирует их работу, обмен промежуточными результатами и упаковку итоговых материалов.

Контекст и режимы генерации

Контекст K2.6 — до 262 144 токенов.
В бенчмарках K2.6 работала в режиме thinking с параметрами по умолчанию:
- temperature = 1.0;
- top-p = 1.0.
Для Humanity’s Last Exam (HLE) с инструментами:
- максимум генерации — 262 144 токенов;
- лимит на шаг — 49 152 токена;
- используется простая стратегия контекста: при переполнении остаётся только последний раунд сообщений с инструментами.

Бенчмарки: где K2.6 силён

Ниже — выборка ключевых результатов (все значения — проценты или скор, чем больше, тем лучше), с прямым сравнением с K2.5.

Агентные и tool‑based задачи

Humanity’s Last Exam (HLE-Full) с инструментами:
- K2.6 — 54,0;
- GPT-5.4 xhigh — 52,1;
- Claude Opus 4.6 max effort — 53,0;
- Gemini 3.1 Pro high thinking — 51,4;
- K2.5 — 50,2.
BrowseComp:
- K2.6 — 83,2;
- GPT-5.4 — 82,7;
- Claude Opus 4.6 — 83,7;
- Gemini 3.1 Pro — 85,9;
- K2.5 — 74,9.
BrowseComp (agent swarm):
- K2.6 — 86,3;
- K2.5 — 78,4.
DeepSearchQA (f1-score):
- K2.6 — 92,5;
- GPT-5.4 — 78,6;
- Claude Opus 4.6 — 91,3;
- Gemini 3.1 Pro — 81,9;
- K2.5 — 89,0.
DeepSearchQA (accuracy):
- K2.6 — 83,0;
- GPT-5.4 — 63,7;
- Claude Opus 4.6 — 80,6;
- Gemini 3.1 Pro — 60,2;
- K2.5 — 77,1.
WideSearch (item-f1):
- K2.6 — 80,8;
- K2.5 — 72,7.
Toolathlon:
- K2.6 — 50,0;
- GPT-5.4 — 54,6;
- Claude Opus 4.6 — 47,2;
- Gemini 3.1 Pro — 48,8;
- K2.5 — 27,8.
MCPMark:
- K2.6 — 55,9;
- GPT-5.4 — 62,5*;
- Claude Opus 4.6 — 56,7*;
- Gemini 3.1 Pro — 55,9*;
- K2.5 — 29,5.

Claw / агентные пайплайны

Claw Eval (pass^3):
- K2.6 — 62,3;
- GPT-5.4 — 60,3;
- Claude Opus 4.6 — 70,4;
- Gemini 3.1 Pro — 57,8;
- K2.5 — 52,3.
Claw Eval (pass@3):
- K2.6 — 80,9;
- GPT-5.4 — 78,4;
- Claude Opus 4.6 — 82,4;
- Gemini 3.1 Pro — 82,9;
- K2.5 — 75,4.
APEX-Agents:
- K2.6 — 27,9;
- GPT-5.4 — 33,3;
- Claude Opus 4.6 — 33,0;
- Gemini 3.1 Pro — 32,0;
- K2.5 — 11,5.

Coding и SWE‑бенчмарки

Terminal-Bench 2.0 (Terminus-2):
- K2.6 — 66,7;
- GPT-5.4 — 65,4*;
- Claude Opus 4.6 — 65,4;
- Gemini 3.1 Pro — 68,5;
- K2.5 — 50,8.
SWE-Bench Pro:
- K2.6 — 58,6;
- GPT-5.4 — 57,7;
- Claude Opus 4.6 — 53,4;
- Gemini 3.1 Pro — 54,2;
- K2.5 — 50,7.
SWE-Bench Multilingual:
- K2.6 — 76,7;
- Claude Opus 4.6 — 77,8;
- Gemini 3.1 Pro — 76,9*;
- K2.5 — 73,0.
SWE-Bench Verified:
- K2.6 — 80,2;
- Claude Opus 4.6 — 80,8;
- Gemini 3.1 Pro — 80,6;
- K2.5 — 76,8.
SciCode:
- K2.6 — 52,2;
- GPT-5.4 — 56,6;
- Claude Opus 4.6 — 51,9;
- Gemini 3.1 Pro — 58,9;
- K2.5 — 48,7.
OJBench (python):
- K2.6 — 60,6;
- Claude Opus 4.6 — 60,3;
- Gemini 3.1 Pro — 70,7;
- K2.5 — 54,7.
LiveCodeBench (v6):
- K2.6 — 89,6;
- Claude Opus 4.6 — 88,8;
- Gemini 3.1 Pro — 91,7;
- K2.5 — 85,0.

Reasoning и знания

HLE-Full (без инструментов):
- K2.6 — 34,7;
- GPT-5.4 — 39,8;
- Claude Opus 4.6 — 40,0;
- Gemini 3.1 Pro — 44,4;
- K2.5 — 30,1.
Humanity’s Last Exam (text-only subset):
- K2.6 — 36,4% без инструментов;
- 55,5% с инструментами.
AIME 2026:
- K2.6 — 96,4;
- GPT-5.4 — 99,2;
- Claude Opus 4.6 — 96,7;
- Gemini 3.1 Pro — 98,3;
- K2.5 — 95,8.
HMMT 2026 (Feb):
- K2.6 — 92,7;
- GPT-5.4 — 97,7;
- Claude Opus 4.6 — 96,2;
- Gemini 3.1 Pro — 94,7;
- K2.5 — 87,1.
IMO-AnswerBench:
- K2.6 — 86,0;
- GPT-5.4 — 91,4;
- Claude Opus 4.6 — 75,3;
- Gemini 3.1 Pro — 91,0*;
- K2.5 — 81,8.
GPQA-Diamond:
- K2.6 — 90,5;
- GPT-5.4 — 92,8;
- Claude Opus 4.6 — 91,3;
- Gemini 3.1 Pro — 94,3;
- K2.5 — 87,6.

Vision и мультимодальность

MMMU-Pro:
- K2.6 — 79,4;
- GPT-5.4 — 81,2;
- Claude Opus 4.6 — 73,9;
- Gemini 3.1 Pro — 83,0*;
- K2.5 — 78,5.
MMMU-Pro с python:
- K2.6 — 80,1;
- GPT-5.4 — 82,1;
- Claude Opus 4.6 — 77,3;
- Gemini 3.1 Pro — 85,3*;
- K2.5 — 77,7.
CharXiv (RQ):
- K2.6 — 80,4;
- GPT-5.4 — 82,8*;
- Claude Opus 4.6 — 69,1;
- Gemini 3.1 Pro — 80,2*;
- K2.5 — 77,5.
CharXiv (RQ) с python:
- K2.6 — 86,7;
- GPT-5.4 — 90,0*;
- Claude Opus 4.6 — 84,7;
- Gemini 3.1 Pro — 89,9*;
- K2.5 — 78,7.
MathVision:
- K2.6 — 87,4;
- GPT-5.4 — 92,0*;
- Claude Opus 4.6 — 71,2*;
- Gemini 3.1 Pro — 89,8*;
- K2.5 — 84,2.
MathVision с python:
- K2.6 — 93,2;
- GPT-5.4 — 96,1*;
- Claude Opus 4.6 — 84,6*;
- Gemini 3.1 Pro — 95,7*;
- K2.5 — 85,0.
BabyVision:
- K2.6 — 39,8;
- GPT-5.4 — 49,7;
- Claude Opus 4.6 — 14,8;
- Gemini 3.1 Pro — 51,6;
- K2.5 — 36,5.
BabyVision с python:
- K2.6 — 68,5;
- GPT-5.4 — 80,2*;
- Claude Opus 4.6 — 38,4*;
- Gemini 3.1 Pro — 68,3*;
- K2.5 — 40,5.
V* с python:
- K2.6 — 96,9;
- GPT-5.4 — 98,4*;
- Claude Opus 4.6 — 86,4*;
- Gemini 3.1 Pro — 96,9*;
- K2.5 — 86,9.

Для воспроизведения результатов Kimi рекомендует использовать официальный API и, если вы работаете через сторонних провайдеров, ориентироваться на Kimi Vendor Verifier.

Как это работает

Длинный контекст и управление памятью

K2.6 умеет держать до 262 144 токенов контекста. Это даёт возможность:

вести многочасовые сессии без постоянной пересборки промпта;
хранить в памяти крупный кодовый репозиторий, документацию и историю вызовов инструментов.

При работе с длинными задачами, где подключены инструменты (поиск, браузер, код-интерпретатор), K2.6 использует простую, но предсказуемую стратегию:

пока контекст не переполнен — хранит всё;
как только лимит превышен — оставляет только последний раунд сообщений, связанных с инструментами, и продолжает работу.

Для разных бенчмарков Kimi использует разные режимы управления контекстом:

HLE с инструментами — обрезка до последнего раунда tool-сообщений при 262k токенов;
BrowseComp — discard-all, как у K2.5 и DeepSeek-V3.2;
DeepSearchQA — без контекст-менеджмента, задачи, не влезающие в окно, считаются проваленными;
WideSearch — режим «hide tool result», при переполнении также сохраняется только последний раунд инструментов.

Агентная архитектура и Swarm

K2.6 выступает не только как «модель по запросу», но и как координатор роев агентов.

Agent Swarm на K2.6:

K2.6 разбивает крупную задачу на гетерогенные подзадачи;
создаёт подагентов со специализированными ролями;
запускает их параллельно (до 300 агентов и 4 000 шагов);
собирает результаты и склеивает их в финальный артефакт — документ, сайт, презентацию, таблицу.

Ключевой момент — композиция разных типов работы:

поверхностный широкий поиск + глубокий ресёрч;
массовый анализ документов + длинное письмо или отчёт;
генерация контента в разных форматах параллельно.

Файлы, превращённые в Skills, работают как шаблоны:

K2.6 извлекает «ДНК» структуры и стиля документа;
запоминает логику аргументации, подачу данных, формат визуализаций;
при следующем запросе может сгенерировать новый материал в том же формате.

Claw Groups и оркестрация внешних агентов

Claw Groups строятся поверх тех же идей, но открыты для внешних агентов.

Как это устроено:

пользователи подключают агентов с любых устройств (ноутбук, телефон, сервер);
каждый агент может использовать разные модели и собственные инструменты;
все агенты и люди работают в общем пространстве задач.

Роль K2.6:

распределяет задачи по агентам с подходящими навыками и доступными инструментами;
мониторит прогресс, ошибки и зависания;
при проблемах переназначает подзадачи или пересобирает план;
следит за тем, чтобы итоговые результаты были доведены до конца и провалидированы.

Код и инструменты

K2.6 активно использует инструменты:

поиск и веб-браузер для ресёрча;
code-interpreter для запуска и отладки кода;
специализированные утилиты в SWE‑бенчмарках (bash, createfile, insert, view, strreplace, submit).

Kimi тестирует кодовые задачи в среднем по 10 независимых прогонов и усредняет результат, чтобы сгладить случайные флуктуации.

На практике это означает, что K2.6 не просто «дописывает» код, а:

планирует серию изменений;
вызывает инструменты для запуска и профилирования;
смотрит на flame-графы CPU и аллокаций;
перестраивает архитектуру (как в кейсе с exchange-core и сменой схемы потоков 4ME+2RE → 2ME+1RE).

Визуальные задачи и мультимодальность

K2.6 обрабатывает визуальный контент и умеет комбинировать его с кодом и текстом:

анализирует изображения и сложные схемы (CharXiv, MathVision, BabyVision);
использует Python-окружение для вычислений и построения графиков в vision‑бенчмарках;
вызывает внешние сервисы генерации изображений и видео, чтобы собирать законченные лендинги.

Kimi Design Bench разбит на четыре типа задач, и K2.6 везде демонстрирует стабильный уровень, близкий к Google AI Studio, особенно в сборке лендингов и креативном программировании.

Что это значит для вас

Для разработчиков и тимлидов

Где K2.6 полезен:

длинные рефакторинги и оптимизация:
- можно поручить модели оптимизацию старого высоконагруженного сервиса, как в примере с exchange-core;
- K2.6 умеет читать профилировщики, flame-графы и предлагать нетривиальные изменения архитектуры.
поддержка мульти-языковых кодовых баз:
- Rust, Go, Python, фронтенд, DevOps — модель показывает устойчивую генерализацию;
- полезно, если в компании смешанная инфраструктура.
автоматизация рутины через агентов:
- мониторинг и инцидент-менеджмент 24/7;
- регулярные отчёты, проверка логов, реакция на алерты.
агентные пайплайны для сложных задач:
- поиск, анализ, сводка и генерация документов в одном прогоне;
- полезно для внутренних knowledge‑баз, отчётов, R&D.

Где осторожнее:

задачи, где критична абсолютная точность reasoning (сложная математика на уровне лучших результатов AIME/IMO), лучше перепроверять — по ряду reasoning‑бенчмарков GPT-5.4 и Gemini 3.1 Pro всё ещё выше;
если у вас уже выстроен стек строго под одну проприетарную модель, придётся подумать о миграции и совместимости инструментов.

Для фронтенд‑ и full‑stack‑разработчиков

K2.6 особенно силён в задачах:

генерация лендингов и маркетинговых страниц из текстового описания:
- продуманные hero-секции;
- анимации, включая scroll effects;
- аккуратная структура и сетка.
прототипирование full‑stack‑функций:
- простая аутентификация;
- формы и взаимодействие с пользователем;
- лёгкие операции с базой данных (логирование, сессии).

Практическая схема работы:

описываете задачу и стек (например, Next.js + Tailwind + PostgreSQL);
просите K2.6 собрать архитектуру, схемы таблиц и базовый UI;
дорабатываете руками уже на уровне деталей, а не с нуля.

Если вы строите фронтенд‑агентов (например, генерация UI по ТЗ через API), K2.6 даёт хороший баланс:

высокая точность на SWE‑бенчмарках;
приличные показатели в LiveCodeBench и OJBench;
улучшенная дисциплина вызова инструментов (96,60% успешных вызовов в CodeBuddy).

Для дата-сайентистов, аналитиков и ресёрч‑команд

Где K2.6 помогает:

построение сложных ресёрч‑воркфлоу через Swarm:
- от сбора данных и статей до финальной презентации и таблиц;
- особенно, если нужны повторно используемые skills на основе эталонных документов.
анализ научных статей и построение датасетов:
- пример с астрофизикой показывает, что модель может вытащить структуру аргументации и визуализации и превратить её в 20 000+ строк данных и 14 графиков.
автоматизированный ресёрч по рынку и конкурентам:
- поиск компаний по картам, сайтам, каталогам;
- генерация лендингов и базовых материалов.

Где есть ограничения:

для задач, где критичны формальные доказательства или точные вычисления, лучше использовать K2.6 как помощника, а не единственный источник истины;
если вам важна максимальная точность на специфичных reasoning‑бенчмарках, стоит сравнивать K2.6 с GPT-5.4 и Gemini 3.1 Pro под вашу задачу.

Для продакта и менеджеров

K2.6 пригодится, если вы:

планируете запускать агентные продукты (постоянно работающие ассистенты в коде, поддержке, операциях);
хотите автоматизировать маркетинговый конвейер:
- генерация демо;
- сборка бенчмарков;
- посты в соцсетях;
- видео и лендинги.

Команда Kimi сама использует Claw Groups для такого пайплайна, так что это не только демо, но и рабочий сценарий.

Доступность из России

Kimi K2.6 доступен через Kimi.com, приложение Kimi, API и Kimi Code. Для пользователей из России может потребоваться VPN, так как доступ к зарубежным ИИ‑сервисам иногда ограничен на уровне провайдеров или самих платформ. Конкретная политика доступа зависит от времени и настроек сервиса, её нужно проверять отдельно.

Место на рынке

Kimi позиционирует K2.6 как open source‑модель с сильным уклоном в код и агентов, которая по ряду задач догоняет и местами обгоняет крупные закрытые модели.

Если смотреть по цифрам:

Coding и SWE:
- K2.6 на уровне или чуть выше GPT-5.4 и Claude Opus 4.6 на Terminal-Bench 2.0 и SWE-Bench Pro;
- в LiveCodeBench (v6) K2.6 (89,6) чуть ниже Gemini 3.1 Pro (91,7), но выше Claude Opus 4.6 (88,8);
- относительно K2.5 прирост заметный: +15% на внутренних бенчмарках одного из партнёров, +12% точности генерации кода у CodeBuddy, +18% устойчивости к длинному контексту.
Агентные задачи и инструменты:
- на HLE-Full с инструментами K2.6 (54,0) опережает GPT-5.4 (52,1) и Gemini 3.1 Pro (51,4), немного уступая Claude Opus 4.6 (53,0) по отдельным метрикам;
- на DeepSearchQA K2.6 показывает очень высокий f1 (92,5) и accuracy (83,0), заметно выше GPT-5.4 и Gemini 3.1 Pro в указанных конфигурациях;
- Toolathlon и MCPMark показывают, что K2.6 конкурентен, хотя GPT-5.4 иногда выше.
Reasoning и знания:
- на AIME 2026 и GPQA-Diamond K2.6 немного уступает GPT-5.4 и Gemini 3.1 Pro, но опережает K2.5;
- на IMO-AnswerBench K2.6 (86,0) выше K2.5 (81,8) и Claude Opus 4.6 (75,3), но ниже GPT-5.4 и Gemini 3.1 Pro.
Vision:
- K2.6 стабильно держится рядом с GPT-5.4 и Gemini 3.1 Pro по многим vision‑бенчмаркам, заметно обгоняя K2.5 и Claude Opus 4.6 на части задач.

Ключевой аргумент Kimi — соотношение цена/качество для открытой модели. В отзывах партнёров регулярно звучит, что K2.6 даёт SOTA‑уровень по агентным и кодовым задачам «за часть стоимости» дорогих закрытых моделей. Конкретных цен в материале нет, но акцент именно на экономике при длительных агентных сценариях.

Если коротко:

если вам нужна открытая модель для кода, длинных сессий и роев агентов — K2.6 выглядит одним из самых сильных кандидатов;
если вы ориентируетесь на максимум по отдельным reasoning‑бенчмаркам любой ценой, имеет смысл сравнивать с GPT-5.4 и Gemini 3.1 Pro под свою задачу.

Как запустить и воспроизвести бенчмарки

Kimi рекомендует для точного воспроизведения результатов использовать официальный API и настройки, близкие к тем, что использовались в отчёте.

Общие параметры тестирования K2.6:

режим: thinking mode;
temperature = 1.0;
top-p = 1.0;
контекст: 262 144 токенов.

Дополнительные детали из отчёта:

для HLE и reasoning‑задач — максимум 98 304 токена генерации, для HLE-Full с инструментами — до 262 144 токенов с лимитом 49 152 токена на шаг;
Claw Eval — версия 1.1, max-tokens-per-step = 16 384;
APEX-Agents — 452 задачи из 480 публичных (исключены Investment Banking Worlds 244 и 246 из-за внешних зависимостей);
SWE‑бенчмарки — фреймворк на базе SWE-agent с минимальным набором инструментов (bash, createfile, insert, view, strreplace, submit), результаты усреднены по 10 прогонов;
Terminal-Bench 2.0 — стандартный фреймворк Terminus-2 и JSON‑парсер в режиме preserve thinking.

Для выбора сторонних провайдеров, через которых можно вызвать K2.6, Kimi предлагает ориентироваться на Kimi Vendor Verifier: https://kimi.com/blog/kimi-vendor-verifier

Если вы интегрируете K2.6 в свои пайплайны, имеет смысл:

повторить ключевые настройки (температура, top-p, лимиты токенов);
включить thinking mode, если он доступен в вашем провайдере;
явно настроить стратегию управления контекстом под ваш сценарий (полное сохранение, обрезка до последних сообщений с инструментами или собственная логика).