- Дата публикации
Kimi Vendor Verifier: как проверить, что ваш ИИ‑провайдер не ломает модель
Что нового
Moonshot AI вместе с релизом модели Kimi K2.6 открыла исходники проекта Kimi Vendor Verifier (KVV). Это набор тестов и методик, который помогает проверить, корректно ли инфраструктурные провайдеры и хостинги запускают открытые модели.
Ключевые новшества:
- Открытый фреймворк проверки провайдеров: можно прогнать свой API или свой деплой модели через стандартный набор тестов.
- Шесть целевых бенчмарков, каждый ловит конкретный класс ошибок инфраструктуры:
- Pre-Verification — проверка, что API не игнорирует параметры вроде
temperatureиtop_p. - OCRBench — короткий (около 5 минут) смоук‑тест мультимодальных пайплайнов.
- MMMU Pro — проверка препроцессинга визуального входа на сложных картинках.
- AIME2025 — стресс‑тест с длинным выводом, который ловит баги KV‑кеша и деградацию при квантизации.
- K2VV ToolCall — измерение F1 по триггеру инструментов и точности JSON Schema.
- SWE-Bench — полный агентный кодинг‑тест (сейчас не открыт из‑за зависимости от песочницы).
- Pre-Verification — проверка, что API не игнорирует параметры вроде
- Публичный скоринг по F1: Moonshot AI использует эти тесты для оценки Kimi API и публикует результаты K2VV.
- Оптимизированный пайплайн прогонки тестов: на двух серверах с NVIDIA H20 (по 8 GPU каждый) полный прогон всех бенчмарков последовательно занял примерно 15 часов. Скрипты поддерживают стриминг‑инференс, автоповторы и чекпоинты, чтобы не терять прогресс.
- План публичного лидерборда: Moonshot AI собирается вести открытый рейтинг провайдеров по результатам KVV.
Как это работает
Идея Kimi Vendor Verifier простая: Moonshot AI не ограничивается тем, что выложила веса Kimi. Команда даёт ещё и стандарт, по которому можно проверить, не ломает ли инфраструктура поведение модели.
Механика KVV:
-
Pre-Verification
- Первый этап — жёсткая проверка API‑слоя.
- Тесты убеждаются, что провайдер реально применяет переданные параметры:
temperature,top_pи другие. - Для «Thinking mode» Kimi команда отдельно валидирует, что промежуточные размышления модели корректно возвращаются и не теряются.
- Пока все тесты Pre-Verification не пройдены, к основным бенчмаркам система не переходит.
-
Бенчмарки, нацеленные на типовые поломки
- OCRBench: быстрый тест мультимодального стека. Ловит проблемы в пайплайне картинка → текст, ошибки в OCR и интеграции vision‑части.
- MMMU Pro: сложный визуальный бенчмарк с разными типами картинок. Основная цель — выявить неправильный препроцессинг изображений: кроп, ресайз, нормализация, каналы.
- AIME2025: задачи с длинным выводом. Здесь вылезают:
- баги в KV‑кеше (например, неправильное управление контекстом);
- потери качества при агрессивной квантизации, которые не видно на коротких ответах.
- K2VV ToolCall:
- измеряет F1 по триггеру инструментов — насколько стабильно модель решает, когда вызывать tool;
- проверяет точность JSON Schema для вызовов инструментов;
- фокус на том, что ошибки инструментов сильно размножаются в агентных сценариях, и их нужно ловить заранее.
- SWE-Bench:
- полноценный тест для код‑агентов;
- использует песочницу, поэтому сейчас не лежит в открытом доступе, но входит в общий KVV‑пайплайн у Moonshot AI.
-
Интеграция с экосистемой фреймворков
- Команда Moonshot AI не ограничивается диагностикой.
- Они работают напрямую с сообществами vLLM, SGLang, KTransformers, чтобы чинить корневые причины: ошибки в кэше, стриминге, квантовании.
-
Процесс валидации перед релизом
- Moonshot AI даёт инфраструктурным провайдерам ранний доступ к моделям.
- Провайдеры могут заранее прогнать свой стек через KVV и починить проблемы до того, как к ним придут реальные пользователи.
-
Инфраструктурные требования и стоимость тестов
- Внутренний полный прогон KVV Moonshot AI делала на двух серверах NVIDIA H20 с 8 GPU каждый.
- Последовательное выполнение всех тестов заняло около 15 часов.
- Скрипты оптимизированы под долгие запуски: поддерживают стриминг‑инференс, автоматические ретраи и возобновление с чекпоинтов.
Что это значит для вас
Если вы инфраструктурный провайдер или хостите модели
KVV — это способ доказать, что вы не портите поведение открытых моделей своим стеком.
Что даёт:
-
Ранняя диагностика:
- ловите проблемы с KV‑кешем, квантованием, препроцессингом картинок и параметрами генерации до запуска продукта;
- уменьшаете поток жалоб «модель тупит» там, где проблема не в модели, а в вашем окружении.
-
Понятная метрика доверия:
- можно показать клиентам результаты KVV, в том числе F1 по ToolCall;
- участие в публичном лидерборде даёт прозрачный сравнительный показатель.
-
Практический сценарий:
- вы добавляете поддержку Kimi K2.6 или другой открытой модели;
- запускаете KVV против своего API;
- чиниете то, что проваливает тесты (например, неправильную обработку
temperatureили баги в стриминге); - только после этого пускаете трафик клиентов.
Если вы компания, которая использует LLM через сторонние API
KVV помогает отделить «модель слабая» от «провайдер её сломал».
Как можно использовать:
-
Выбор провайдера:
- спрашивайте у хостинга, прогоняли ли они свой стек через Kimi Vendor Verifier и какие получили результаты;
- ориентируйтесь на публичный лидерборд, когда он появится.
-
Аудит текущей инфраструктуры:
- если вы уже завязаны на конкретный API, можно прогнать KVV против него и понять, где именно он даёт сбой: vision, длинный контекст, вызов инструментов.
-
Работа с агентами и инструментами:
- K2VV ToolCall особенно важен, если у вас агенты, которые активно используют инструменты и строгие JSON‑схемы;
- провалы по F1 и JSON Schema здесь быстро превращаются в цепочки ошибок в проде.
Если вы разработчик или ресёрчер, который запускает модели локально
KVV можно использовать как чек‑лист для своего стека:
- вы накатили vLLM, SGLang или KTransformers;
- подключили веса Kimi или других открытых моделей;
- прогнали KVV и увидели, где именно ваша сборка расходится с эталонным поведением.
Это особенно полезно, если вы экспериментируете с квантизацией и нестандартными настройками декодинга.
Доступность и ограничения
- Kimi Vendor Verifier — open‑source проект.
- Доступ к самим моделям Kimi и Kimi API может требовать аккаунт и, в зависимости от региона, VPN.
- Для полного прогона всех тестов на уровне Moonshot AI нужны серьёзные GPU‑ресурсы. Но часть бенчмарков можно запускать и в более скромной конфигурации, просто дольше.
Место на рынке
Kimi Vendor Verifier решает специфическую задачу: не обучение моделей, а проверку того, что инфраструктура не искажает их поведение.
Ключевые особенности относительно типичных бенчмарков:
- Большинство открытых бенчмарков (MMLU, GSM8K, HumanEval и т.п.) измеряют способности модели.
- KVV концентрируется на ошибках инфраструктуры:
- неправильная обработка параметров декодинга;
- баги в KV‑кеше;
- деградация после квантизации;
- сломанный препроцессинг картинок;
- нестабильный вызов инструментов и некорректный JSON.
Moonshot AI фиксирует, что после релиза Kimi K2 и режима K2 Thinking сообщество регулярно сообщало о странных результатах в бенчмарках. Расследование показало, что значимая часть проблем связана не с моделью, а с тем, как провайдеры настраивали декодинг.
В ответ команда:
- жёстко зафиксировала параметры Temperature=1.0 и TopP=0.95 для Thinking‑режима на своём API;
- запустила KVV, чтобы выявлять более тонкие отклонения у сторонних провайдеров;
- встроилась в экосистемы vLLM, SGLang, KTransformers и чинит проблемы «наверх по течению».
Отдельный эффект — публичный лидерборд. Это превращает корректность инференса в измеряемый параметр, а не в маркетинговое обещание.
Если вы сравниваете KVV с другими инструментами, важно понимать: это не замена классическим бенчмаркам и не конкурент GPT‑4o, Claude 3.5 и другим моделям. Это слой над ними, который отвечает на вопрос: «А провайдер вообще честно запускает то, что обещает?»
Как подключиться к инициативе
Moonshot AI формулирует это просто: «веса открыты, знания о том, как их правильно запускать, тоже должны быть открыты».
Что можно сделать уже сейчас:
- если вы провайдер или интегратор — подключиться к KVV и прогнать свои стеки;
- если вы строите агента или продукт на Kimi — запросить у своего провайдера результаты KVV;
- если вы разрабатываете инфраструктурные фреймворки — синхронизироваться с командами vLLM, SGLang, KTransformers и учитывать кейсы KVV.
Moonshot AI расширяет покрытие провайдеров и ищет более лёгкие агентные тесты, чтобы снизить порог входа. Для контакта команда указывает почту: [email protected].