Ollama 0.23: Kimi CLI и ускоренный MLX-раннер для долгих задач ИИ — VogueTech

Что нового

Ollama обновилась до версии 0.23 и принесла сразу несколько важных изменений для тех, кто запускает ИИ‑модели локально:

Поддержка Kimi CLI через Ollama
Теперь можно установить и запускать Kimi CLI прямо из Ollama:
```
ollama launch kimi --model kimi-k2.6:cloud
```
Kimi CLI с моделью Kimi K2.6 ориентирован на длинные агентные сценарии. Он использует мультиагентную систему для задач, которые требуют много шагов и устойчивого планирования.
MLX‑раннер научился работать с logprobs
Для совместимых моделей MLX‑раннер теперь возвращает logprobs — логарифмы вероятностей по токенам. Это важно для:
- анализа уверенности модели;
- построения кастомных декодеров;
- более тонкого контроля генерации.
Ускоренная выборка (sampling) в MLX
В MLX‑раннере объединили top‑P и top‑K в один проход сортировки. Плюс repeat penalties (штрафы за повторяющиеся токены) теперь применяются прямо в сэмплере. Это даёт:
- более быструю генерацию для совместимых моделей;
- меньше повторов и зацикливаний в ответах.
Быстрее токенизация промптов в MLX
Токенизацию перенесли в goroutines обработчиков запросов. Это разгружает общий поток и уменьшает задержки при большом количестве параллельных запросов.
Безопасная работа с массивами в MLX
Улучшена потокобезопасность при управлении массивами. Это снижает риск падений и странных багов при многопоточной нагрузке.
Ускорение GLM4 MoE Lite
Для GLM4 MoE Lite добавили fused sigmoid router head — объединённую реализацию роутера. Это даёт прирост производительности при маршрутизации между экспертами внутри MoE‑архитектуры.
Фиксы в интерфейсе macOS‑приложения
- Исправили баг, из‑за которого переключение чатов иногда показывало устаревшую выбранную модель в модель‑пикере.
Исправление структурированных ответов для Gemma 4
- Для Gemma 4 поправили structured outputs, когда параметр think=false. Теперь структурированные ответы работают корректнее в этом режиме.

Как это работает

Kimi CLI через Ollama

Команда:

ollama launch kimi --model kimi-k2.6:cloud

делает две вещи:

Поднимает окружение для Kimi CLI через Ollama, без ручной установки отдельного клиента.
Подключает облачную модель kimi-k2.6:cloud как бэкенд.

Kimi K2.6 использует мультиагентный подход: несколько специализированных "агентов" могут по очереди или параллельно обрабатывать части задачи. Это полезно для длинных сценариев, где нужно:

планирование из многих шагов;
вызов инструментов;
анализ промежуточных результатов.

Logprobs в MLX‑раннере

MLX‑раннер теперь может для совместимых моделей возвращать logprobs — логарифмы вероятностей каждого сгенерированного токена. Под капотом:

во время генерации сэмплер не только выбирает токен, но и сохраняет распределение вероятностей;
логарифмы этих вероятностей отдаются клиенту, который может их анализировать или визуализировать.

Fused top‑P + top‑K и repeat penalties

Раньше top‑P и top‑K могли обрабатываться по отдельности. Теперь в MLX:

кандидаты сортируются один раз;
к ним одновременно применяются ограничения top‑K и top‑P;
затем учитываются repeat penalties, которые понижают вероятность уже встречавшихся токенов.

Это уменьшает количество операций и ускоряет генерацию, особенно на длинных последовательностях.

Токенизация в goroutines

Токенизацию промпта перенесли в goroutines обработчиков запросов. Это значит:

каждый запрос токенизируется в своём лёгком потоке;
меньше блокировок общего ресурса;
выше пропускная способность при большом числе одновременных запросов.

Потокобезопасность массивов в MLX

Улучшено управление массивами в многопоточной среде:

аккуратнее работают блокировки и доступ к общим структурам;
меньше шансов получить гонки данных и падения под нагрузкой.

Fused sigmoid router head в GLM4 MoE Lite

GLM4 MoE Lite использует Mixture‑of‑Experts. В такой архитектуре роутер решает, какие "эксперты" обрабатывают конкретный токен.

Fused sigmoid router head объединяет несколько операций роутера в один оптимизированный блок:

меньше обращений к памяти;
меньше промежуточных тензоров;
быстрее вычисляется распределение по экспертам.

Фиксы интерфейса и Gemma 4

В macOS‑клиенте модель‑пикер теперь корректно обновляет выбранную модель при переключении чатов.
У Gemma 4 при think=false раньше ломались структурированные ответы. Логика формирования structured outputs скорректирована, чтобы этот режим работал стабильно.

Что это значит для вас

Когда имеет смысл использовать Kimi CLI через Ollama

Kimi CLI с kimi-k2.6:cloud подойдёт, если вы:

строите длинные агентные пайплайны: сложные сценарии автоматизации, многошаговые расследования, ресёрч с разветвлённой логикой;
хотите протестировать мультиагентный подход без самостоятельной сборки инфраструктуры;
уже используете Ollama и хотите добавить ещё один облачный бэкенд одной командой.

Когда Kimi CLI не лучший выбор:

если вам нужна строго офлайн‑работа без облака;
если задачи простые: короткие ответы, чат‑бот для справок, генерация небольших текстов — тут мультиагентность может быть избыточной.

Что даёт обновлённый MLX‑раннер

Обновления MLX полезны, если вы:

разворачиваете Ollama на Apple Silicon и активно гоняете модели локально;
делаете многопользовательские сервисы поверх Ollama и упираетесь в задержки и конкуренцию запросов;
хотите анализировать уверенность модели через logprobs или строить свои стратегии сэмплинга.

Где MLX‑улучшения особенно полезны:

генерация длинных текстов, кода, сценариев, где важна скорость и отсутствие повторов;
интерактивные приложения с несколькими одновременными пользователями;
исследовательские инструменты, которые визуализируют вероятности токенов.

Где эффекта будет мало:

если вы запускаете один небольшой запрос раз в несколько минут;
если используемая модель не поддерживает logprobs или не работает через MLX.

Кому важен фикс Gemma 4 и GLM4 MoE Lite

Если вы полагаетесь на structured outputs Gemma 4 и используете режим think=false, обновление избавит от неожиданных сбоев структуры ответа.
Если вы запускаете GLM4 MoE Lite, fused sigmoid router head даст прирост скорости, особенно на длинных последовательностях и при высокой нагрузке.

Доступность и ограничения

Kimi CLI с kimi-k2.6:cloud использует облачную модель. Для работы нужен доступ к соответствующему облаку через интернет.
Если вы находитесь в регионе с ограничениями доступа к зарубежным сервисам, может потребоваться VPN или прокси‑настройка, как и для других облачных ИИ.
Локальные улучшения MLX и интерфейсные фиксы в macOS‑приложении работают без VPN, если вы уже используете Ollama локально.

Место на рынке

По самому обновлению Ollama 0.23 нет прямых численных сравнений с конкурентами по скорости или качеству, но можно зафиксировать роль релиза:

Kimi CLI через Ollama — это ещё один вариант облачного бэкенда, который дополняет локальные модели. Он ориентирован на долгие агентные сценарии, где классический чат‑режим GPT‑подобных моделей не всегда удобен.
MLX‑улучшения усиливают позицию Ollama как удобного способа запускать модели на Apple‑устройствах с упором на локальную скорость и стабильность.
Поддержка logprobs и улучшения structured outputs (Gemma 4) делают Ollama более удобной основой для разработчиков, которые строят поверх неё собственные продукты и интерфейсы.

Если вы уже используете Ollama, обновление до 0.23 имеет смысл почти во всех сценариях: оно не ломает привычный флоу, но добавляет Kimi CLI, ускоряет MLX и чинит заметные баги в интерфейсе и structured outputs.

Как запустить

Kimi CLI с Kimi K2.6 через Ollama

Базовая команда из релиза:

ollama launch kimi --model kimi-k2.6:cloud

Эта команда:

запускает Kimi CLI;
подключает модель kimi-k2.6:cloud как источник ответов;
позволяет работать с мультиагентной системой Kimi через уже знакомый вам Ollama.

Дальше вы можете интегрировать этот вызов в свои скрипты, инструменты разработчика или использовать как отдельный ИИ‑клиент для длинных задач.