Kimi K2.7-Code: открытый кодовый ИИ с 256K контекстом и фокусом на агентных задачах — VogueTech

Что нового

Moonshot AI выпустила Kimi K2.7-Code — open-source модель для программирования и агентных сценариев, построенную на базе Kimi K2.6. Главное обновление — лучшее качество на длинных, «многодневных» задачах разработки и более экономное обращение с токенами.

Ключевые изменения и цифры:

Экономия токенов на размышление ~30% по сравнению с Kimi K2.6 при тех же задачах и настройках.
Контекст: до 256 000 токенов (262 144 в тестах).
Архитектура Mixture-of-Experts с 1 триллионом общих параметров и 32 млрд активных параметров на токен.
Нативная INT4-квантизация, как у Kimi-K2-Thinking — меньше память, дешевле инференс на своем железе.
Поддержка текста, изображений и видео на вход.
Режим Thinking включен принудительно, preserve_thinking тоже всегда True — модель всегда ведет подробное «внутреннее» рассуждение и помнит его между ходами.
Официальный API совместим с форматами OpenAI и Anthropic.

По бенчмаркам Kimi K2.7-Code заметно обгоняет K2.6 и часто приближается к флагманским проприетарным моделям.

Основные результаты (проценты — доля успешно решенных задач):

Coding-бенчмарки

Kimi Code Bench v2: 50,9 → 62,0 у K2.7-Code; GPT-5.5 — 69,0; Claude Opus 4.8 — 67,4.
Program Bench: 48,3 → 53,6; GPT-5.5 — 69,1; Claude Opus 4.8 — 63,8.
MLS Bench Lite: 26,7 → 35,1; GPT-5.5 — 35,5; Claude Opus 4.8 — 42,8.

Агентные бенчмарки

Kimi Claw 24/7 Bench: 42,9 → 46,9; GPT-5.5 — 52,8; Claude Opus 4.8 — 50,4.
MCP Atlas: 69,4 → 76,0; GPT-5.5 — 79,4; Claude Opus 4.8 — 81,3.
MCP Mark Verified: 72,8 → 81,1; GPT-5.5 — 92,9; Claude Opus 4.8 — 76,4.

Модель доступна через платформу Moonshot AI (https://platform.moonshot.ai) и как открытые веса под модифицированной лицензией MIT.

Как это работает

Kimi K2.7-Code — это Mixture-of-Experts (MoE) модель, заточенная под код и агентные сценарии.

Основные технические параметры:

Общих параметров: 1 трлн.
Активных параметров на токен: 32 млрд.
Слои: 61 (из них 1 плотный слой).
Attention hidden dimension: 7168.
MoE hidden dimension на эксперта: 2048.
Головы внимания: 64.
Экспертов: 384.
Активных экспертов на токен: 8.
Shared-экспертов: 1.
Словарь: 160 000 токенов.
Контекст: до 256K токенов.
Attention-механизм: MLA.
Активация: SwiGLU.

Модель обрабатывает мультимодальный ввод через vision-энкодер MoonViT:

Vision-энкодер: MoonViT.
Параметров энкодера: 400 млн.
Поддержка изображений и видео в одном запросе вместе с текстом.

MoE-архитектура с 384 экспертами и 8 активными на токен позволяет держать огромный общий размер (1T параметров), но считать только часть сети на каждом шаге. Это даёт высокую емкость без полного триллионного инференса на каждое обращение.

Kimi K2.7-Code использует ту же архитектуру, что Kimi-K2.5 и Kimi-K2.6, поэтому весь код и пайплайны развёртывания можно перенести почти без изменений.

Thinking и preserve_thinking

K2.7-Code принудительно работает в Thinking-режиме:

Модель генерирует скрытое поле reasoning — это её «мысленный процесс».
Поле content — финальный ответ пользователю.
Параметр preserve_thinking всегда True: в многоходовых диалогах модель видит свои прошлые рассуждения и опирается на них.

Это особенно важно для длинных кодовых задач, когда ИИ должен помнить промежуточные гипотезы, планы и контекст между запросами.

Квантизация INT4

Kimi-K2.7-Code использует «нативную» INT4-квантизацию, как Kimi-K2-Thinking:

Меньше потребление памяти.
Проще запуск на одном или нескольких GPU с ограниченным VRAM.
Подходит для встраивания в собственные сервисы и on-prem.

При этом архитектура и интерфейс совместимы с vLLM, SGLang и KTransformers.

Что это значит для вас

Для кого это интересно

Backend- и fullstack-разработчикам. K2.7-Code заточен под реальные продакшн-задачи: от инцидентов и инфраструктуры до перфоманса и системного программирования. Именно эти сценарии лежат в Kimi Code Bench v2.
ML/данным инженерам и MLOps. В бенчмарках MLS Bench Lite модель показывает заметный рост по сравнению с K2.6. Это задачи про LLM-претренинг и пост-тренинг, ML-системы, RL, CV и AI for Science.
Инженерам, которые строят агентные системы. Высокие результаты на MCP Atlas и MCP Mark Verified говорят о сильной работе с инструментами (Notion, GitHub, ФС, Postgres, Playwright) и сложными цепочками вызовов.
Командам, которым нужен открытый стек. Код и веса доступны под Modified MIT License — можно интегрировать в свои продукты, дообучать, деплоить on-prem.

Где модель особенно полезна

Длинные кодовые задачи и рефакторинг больших репозиториев.
- 256K контекста позволяет скормить крупный монорепозиторий, логи инцидентов, документацию и обсуждать всё в одном диалоге.
- preserve_thinking помогает вести «многодневный» проект, где ИИ помнит свои планы и промежуточные решения.
Агентные фреймворки и автогенерация фич.
- Модель хорошо себя ведет в multi-step tool calling (MCP Atlas, MCP Mark Verified).
- Подходит как «мозг» для CLI-агента, который работает с GitHub, базами данных, файловой системой и браузером.
Реверс-инжиниринг поведения программ.
- На Program Bench K2.7-Code учится воссоздавать поведение программ по бинарнику и документации, без исходников и интернета.
- Это полезно, если вы хотите, чтобы ИИ помогал переписывать легаси-инструменты или повторять поведение закрытых утилит.
Мультимодальные сценарии.
- Поддержка картинок и видео из коробки в официальном API.
- Можно анализировать UI-скриншоты, логотипы, демо-ролики и сразу получать текстовые пояснения или код.

Где ограничения и на что обратить внимание

Качество vs GPT-5.5 / Claude Opus 4.8.
- На многих бенчмарках K2.7-Code всё ещё уступает GPT-5.5 и Claude Opus 4.8 по абсолютным цифрам, хотя заметно сократил разрыв по сравнению с K2.6.
- Если вам нужен максимально сильный closed-source ассистент без требований к открытости — GPT-5.5 и Claude Opus 4.8 по цифрам всё ещё впереди.
Thinking-режим нельзя отключить.
- Это плюс для качества сложных задач, но минус, если вы хотите «молниеносные» короткие ответы.
- Instant-режим не поддерживается.
Доступность в России.
- Официальный доступ идёт через https://platform.moonshot.ai. Для пользователей из России может потребоваться VPN, в зависимости от блокировок и политики провайдера.
Экспериментальный видео-ввод.
- Работа с видео сейчас доступна только в официальном API Moonshot AI.
- В сторонних развёртываниях через vLLM или SGLang видео пока не поддерживается.

Если вам нужен открытый кодовый ИИ с большим контекстом и хорошей интеграцией в агентные фреймворки, Kimi K2.7-Code выглядит как практичный выбор. Если приоритет — максимум качества в одной-двух репликах без развертывания своего стека, логичнее смотреть в сторону GPT-5.5 или Claude Opus 4.8.

Место на рынке

По позиционированию Kimi K2.7-Code ближе всего к «кодовым» версиям крупных LLM, но с открытыми весами и сильным фокусом на агентность.

Если смотреть на цифры бенчмарков:

Coding-задачи.
- На Kimi Code Bench v2 K2.7-Code (62,0) всё ещё ниже GPT-5.5 (69,0) и Claude Opus 4.8 (67,4), но заметно улучшился относительно K2.6 (50,9).
- На Program Bench — похожая картина: 53,6 у K2.7-Code против 69,1 у GPT-5.5 и 63,8 у Claude Opus 4.8.
ML-исследования и сложные ML-системы.
- MLS Bench Lite: K2.7-Code — 35,1, GPT-5.5 — 35,5, Claude Opus 4.8 — 42,8.
- Здесь K2.7-Code уже почти на уровне GPT-5.5, но отстаёт от Claude Opus 4.8.
Агентные сценарии и tool use.
- Kimi Claw 24/7 Bench: K2.7-Code — 46,9, GPT-5.5 — 52,8, Claude Opus 4.8 — 50,4.
- MCP Atlas: K2.7-Code — 76,0, GPT-5.5 — 79,4, Claude Opus 4.8 — 81,3.
- MCP Mark Verified: K2.7-Code — 81,1, GPT-5.5 — 92,9, Claude Opus 4.8 — 76,4.

Заметный момент: на MCP Mark Verified K2.7-Code обгоняет Claude Opus 4.8 (81,1 против 76,4), но уступает GPT-5.5 (92,9). Это сильный сигнал именно для сценариев с реальными MCP-инструментами (Notion, GitHub, ФС, Postgres, Playwright).

Kimi K2.7-Code занимает нишу:

Open-source модель с триллионной MoE-архитектурой.
Ориентация на код и агентные пайплайны.
Производительность, которая часто ближе к флагманским закрытым моделям, чем типичные open-source LLM.

Цены в исходных материалах не указаны, поэтому сравнить стоимость запроса с GPT-5.5 или Claude Opus 4.8 нельзя. Но благодаря INT4-квантизации и MoE-архитектуре запуск на собственном железе потенциально выгоднее, чем у плотных моделей сопоставимого размера.

Установка

Kimi K2.7-Code можно развёртывать через несколько движков инференса:

vLLM
SGLang
KTransformers

Требования к библиотеке transformers:

версия >= 4.57.1 и < 5.0.0.

Архитектура Kimi K2.7-Code совпадает с Kimi-K2.5 и Kimi-K2.6, поэтому если у вас уже есть пайплайн под эти модели, его можно переиспользовать.

Moonshot AI даёт доступ к API на https://platform.moonshot.ai с OpenAI- и Anthropic-совместимыми интерфейсами. Примеры деплоя есть в Model Deployment Guide репозитория.

Как запустить

Ниже — примеры использования официального API Kimi K2.7-Code. Важно: модель всегда работает в Thinking-режиме и с preserve_thinking=True.

Простой чат (Thinking-режим)

import openai
import base64
import requests

def simple_chat ( client: openai.OpenAI, model_name: str ):
    messages = [
        {
            'role' : 'system' ,
            'content' : 'You are Kimi, an AI assistant created by Moonshot AI.'
        },
        {
            'role' : 'user' ,
            'content' : [
                {
                    'type' : 'text' ,
                    'text' : 'which one is bigger, 9.11 or 9.9? think carefully.'
                }
            ],
        },
    ]

    response = client.chat.completions.create(
        model=model_name,
        messages=messages,
        stream= False ,
        max_tokens= 4096
    )

    print ( '====== Below is reasoning content in Thinking Mode ======' )
    print ( f'reasoning content: {response.choices[ 0 ].message.reasoning} ' )
    print ( '====== Below is response in Thinking Mode ======' )
    print ( f'response: {response.choices[ 0 ].message.content} ' )

Рекомендуемые параметры для Thinking-режима при использовании сторонних движков (vLLM, SGLang):

temperature = 1.0
top_p = 0.95

Instant-режим не поддерживается.

Чат с изображением

K2.7-Code умеет принимать изображения через официальное API.

import openai
import base64
import requests

def chat_with_image ( client: openai.OpenAI, model_name: str ):
    url = 'https://huggingface.co/moonshotai/Kimi-K2.7-Code/resolve/main/figures/kimi-logo.png'
    image_base64 = base64.b64encode(requests.get(url).content).decode()

    messages = [
        {
            'role' : 'user' ,
            'content' : [
                {
                    'type' : 'text' ,
                    'text' : 'Describe this image in detail.'
                },
                {
                    'type' : 'image_url' ,
                    'image_url' : {
                        'url' : f'data:image/png;base64, {image_base64} '
                    },
                },
            ],
        }
    ]

    response = client.chat.completions.create(
        model=model_name,
        messages=messages,
        stream= False ,
        max_tokens= 8192
    )

    print ( '====== Below is reasoning content in Thinking Mode ======' )
    print ( f'reasoning content: {response.choices[ 0 ].message.reasoning} ' )
    print ( '====== Below is response in Thinking Mode ======' )
    print ( f'response: {response.choices[ 0 ].message.content} ' )

Поддержка картинок и видео через API сторонних развёртываний (vLLM, SGLang) официально не заявлена, экспериментальный видео-ввод есть только в официальном API.

Чат с видео

import openai
import base64
import requests

def chat_with_video ( client: openai.OpenAI, model_name: str ):
    url = 'https://huggingface.co/moonshotai/Kimi-K2.7-Code/resolve/main/figures/demo_video.mp4'
    video_base64 = base64.b64encode(requests.get(url).content).decode()

    messages = [
        {
            "role" : "user" ,
            "content" : [
                {
                    "type" : "text" ,
                    "text" : "Describe the video in detail."
                },
                {
                    "type" : "video_url" ,
                    "video_url" : {
                        "url" : f"data:video/mp4;base64, {video_base64} "
                    },
                },
            ],
        }
    ]

    response = client.chat.completions.create(model=model_name, messages=messages)

    print ( '====== Below is reasoning content in Thinking Mode ======' )
    print ( f'reasoning content: {response.choices[ 0 ].message.reasoning} ' )
    print ( '====== Below is response in Thinking Mode ======' )
    print ( f'response: {response.choices[ 0 ].message.content} ' )

Preserve Thinking в многоходовом диалоге

Модель всегда работает с preserve_thinking=True, то есть видит свои прошлые reasoning-сообщения.

def chat_with_preserve_thinking ( client: openai.OpenAI, model_name: str ):
    messages = [
        {
            "role" : "user" ,
            "content" : "Tell me three random numbers."
        },
        {
            "role" : "assistant" ,
            "reasoning_content" : "I'll start by listing five numbers: 473, 921, 235, 215, 222, and I'll tell you the first three." ,
            "content" : "473, 921, 235"
        },
        {
            "role" : "user" ,
            "content" : "What are the other two numbers you have in mind?"
        }
    ]

    response = client.chat.completions.create(
        model=model_name,
        messages=messages,
        stream= False ,
        max_tokens= 4096 ,
    )

    print ( f"response: {response.choices[ 0 ].message.reasoning} " )
    return response.choices[ 0 ].message.content

Агентные сценарии и tool calling

K2.7-Code поддерживает Interleaved Thinking и Multi-Step Tool Call по той же схеме, что и K2 Thinking. Для примеров использования Moonshot AI предлагает обращаться к документации K2 Thinking.

Лучший опыт работы с K2.7-Code как с кодовым агентом — через Kimi Code CLI: https://www.kimi.com/code.

Лицензия и юридические детали

Код репозитория и веса модели распространяются по Modified MIT License.
В составе проекта есть THIRD PARTY NOTICES с указанием сторонних компонентов и лицензий.
По вопросам использования и интеграции Moonshot AI предлагает писать на support@moonshot.ai.