- Дата публикации
Ollama 0.23: Kimi CLI и ускоренный MLX-раннер для долгих задач ИИ
Что нового
Ollama обновилась до версии 0.23 и принесла сразу несколько важных изменений для тех, кто запускает ИИ‑модели локально:
-
Поддержка Kimi CLI через Ollama
Теперь можно установить и запускать Kimi CLI прямо из Ollama:ollama launch kimi --model kimi-k2.6:cloudKimi CLI с моделью Kimi K2.6 ориентирован на длинные агентные сценарии. Он использует мультиагентную систему для задач, которые требуют много шагов и устойчивого планирования.
-
MLX‑раннер научился работать с logprobs
Для совместимых моделей MLX‑раннер теперь возвращает logprobs — логарифмы вероятностей по токенам. Это важно для:- анализа уверенности модели;
- построения кастомных декодеров;
- более тонкого контроля генерации.
-
Ускоренная выборка (sampling) в MLX
В MLX‑раннере объединили top‑P и top‑K в один проход сортировки. Плюс repeat penalties (штрафы за повторяющиеся токены) теперь применяются прямо в сэмплере. Это даёт:- более быструю генерацию для совместимых моделей;
- меньше повторов и зацикливаний в ответах.
-
Быстрее токенизация промптов в MLX
Токенизацию перенесли в goroutines обработчиков запросов. Это разгружает общий поток и уменьшает задержки при большом количестве параллельных запросов. -
Безопасная работа с массивами в MLX
Улучшена потокобезопасность при управлении массивами. Это снижает риск падений и странных багов при многопоточной нагрузке. -
Ускорение GLM4 MoE Lite
Для GLM4 MoE Lite добавили fused sigmoid router head — объединённую реализацию роутера. Это даёт прирост производительности при маршрутизации между экспертами внутри MoE‑архитектуры. -
Фиксы в интерфейсе macOS‑приложения
- Исправили баг, из‑за которого переключение чатов иногда показывало устаревшую выбранную модель в модель‑пикере.
-
Исправление структурированных ответов для Gemma 4
- Для Gemma 4 поправили structured outputs, когда параметр
think=false. Теперь структурированные ответы работают корректнее в этом режиме.
- Для Gemma 4 поправили structured outputs, когда параметр
Как это работает
Kimi CLI через Ollama
Команда:
ollama launch kimi --model kimi-k2.6:cloud
делает две вещи:
- Поднимает окружение для Kimi CLI через Ollama, без ручной установки отдельного клиента.
- Подключает облачную модель
kimi-k2.6:cloudкак бэкенд.
Kimi K2.6 использует мультиагентный подход: несколько специализированных "агентов" могут по очереди или параллельно обрабатывать части задачи. Это полезно для длинных сценариев, где нужно:
- планирование из многих шагов;
- вызов инструментов;
- анализ промежуточных результатов.
Logprobs в MLX‑раннере
MLX‑раннер теперь может для совместимых моделей возвращать logprobs — логарифмы вероятностей каждого сгенерированного токена. Под капотом:
- во время генерации сэмплер не только выбирает токен, но и сохраняет распределение вероятностей;
- логарифмы этих вероятностей отдаются клиенту, который может их анализировать или визуализировать.
Fused top‑P + top‑K и repeat penalties
Раньше top‑P и top‑K могли обрабатываться по отдельности. Теперь в MLX:
- кандидаты сортируются один раз;
- к ним одновременно применяются ограничения top‑K и top‑P;
- затем учитываются repeat penalties, которые понижают вероятность уже встречавшихся токенов.
Это уменьшает количество операций и ускоряет генерацию, особенно на длинных последовательностях.
Токенизация в goroutines
Токенизацию промпта перенесли в goroutines обработчиков запросов. Это значит:
- каждый запрос токенизируется в своём лёгком потоке;
- меньше блокировок общего ресурса;
- выше пропускная способность при большом числе одновременных запросов.
Потокобезопасность массивов в MLX
Улучшено управление массивами в многопоточной среде:
- аккуратнее работают блокировки и доступ к общим структурам;
- меньше шансов получить гонки данных и падения под нагрузкой.
Fused sigmoid router head в GLM4 MoE Lite
GLM4 MoE Lite использует Mixture‑of‑Experts. В такой архитектуре роутер решает, какие "эксперты" обрабатывают конкретный токен.
Fused sigmoid router head объединяет несколько операций роутера в один оптимизированный блок:
- меньше обращений к памяти;
- меньше промежуточных тензоров;
- быстрее вычисляется распределение по экспертам.
Фиксы интерфейса и Gemma 4
- В macOS‑клиенте модель‑пикер теперь корректно обновляет выбранную модель при переключении чатов.
- У Gemma 4 при
think=falseраньше ломались структурированные ответы. Логика формирования structured outputs скорректирована, чтобы этот режим работал стабильно.
Что это значит для вас
Когда имеет смысл использовать Kimi CLI через Ollama
Kimi CLI с kimi-k2.6:cloud подойдёт, если вы:
- строите длинные агентные пайплайны: сложные сценарии автоматизации, многошаговые расследования, ресёрч с разветвлённой логикой;
- хотите протестировать мультиагентный подход без самостоятельной сборки инфраструктуры;
- уже используете Ollama и хотите добавить ещё один облачный бэкенд одной командой.
Когда Kimi CLI не лучший выбор:
- если вам нужна строго офлайн‑работа без облака;
- если задачи простые: короткие ответы, чат‑бот для справок, генерация небольших текстов — тут мультиагентность может быть избыточной.
Что даёт обновлённый MLX‑раннер
Обновления MLX полезны, если вы:
- разворачиваете Ollama на Apple Silicon и активно гоняете модели локально;
- делаете многопользовательские сервисы поверх Ollama и упираетесь в задержки и конкуренцию запросов;
- хотите анализировать уверенность модели через logprobs или строить свои стратегии сэмплинга.
Где MLX‑улучшения особенно полезны:
- генерация длинных текстов, кода, сценариев, где важна скорость и отсутствие повторов;
- интерактивные приложения с несколькими одновременными пользователями;
- исследовательские инструменты, которые визуализируют вероятности токенов.
Где эффекта будет мало:
- если вы запускаете один небольшой запрос раз в несколько минут;
- если используемая модель не поддерживает logprobs или не работает через MLX.
Кому важен фикс Gemma 4 и GLM4 MoE Lite
- Если вы полагаетесь на structured outputs Gemma 4 и используете режим
think=false, обновление избавит от неожиданных сбоев структуры ответа. - Если вы запускаете GLM4 MoE Lite, fused sigmoid router head даст прирост скорости, особенно на длинных последовательностях и при высокой нагрузке.
Доступность и ограничения
- Kimi CLI с
kimi-k2.6:cloudиспользует облачную модель. Для работы нужен доступ к соответствующему облаку через интернет. - Если вы находитесь в регионе с ограничениями доступа к зарубежным сервисам, может потребоваться VPN или прокси‑настройка, как и для других облачных ИИ.
- Локальные улучшения MLX и интерфейсные фиксы в macOS‑приложении работают без VPN, если вы уже используете Ollama локально.
Место на рынке
По самому обновлению Ollama 0.23 нет прямых численных сравнений с конкурентами по скорости или качеству, но можно зафиксировать роль релиза:
- Kimi CLI через Ollama — это ещё один вариант облачного бэкенда, который дополняет локальные модели. Он ориентирован на долгие агентные сценарии, где классический чат‑режим GPT‑подобных моделей не всегда удобен.
- MLX‑улучшения усиливают позицию Ollama как удобного способа запускать модели на Apple‑устройствах с упором на локальную скорость и стабильность.
- Поддержка logprobs и улучшения structured outputs (Gemma 4) делают Ollama более удобной основой для разработчиков, которые строят поверх неё собственные продукты и интерфейсы.
Если вы уже используете Ollama, обновление до 0.23 имеет смысл почти во всех сценариях: оно не ломает привычный флоу, но добавляет Kimi CLI, ускоряет MLX и чинит заметные баги в интерфейсе и structured outputs.
Как запустить
Kimi CLI с Kimi K2.6 через Ollama
Базовая команда из релиза:
ollama launch kimi --model kimi-k2.6:cloud
Эта команда:
- запускает Kimi CLI;
- подключает модель
kimi-k2.6:cloudкак источник ответов; - позволяет работать с мультиагентной системой Kimi через уже знакомый вам Ollama.
Дальше вы можете интегрировать этот вызов в свои скрипты, инструменты разработчика или использовать как отдельный ИИ‑клиент для длинных задач.