Дата публикации
ai_products

Ollama 0.23: Kimi CLI и ускоренный MLX-раннер для долгих задач ИИ

Что нового

Ollama обновилась до версии 0.23 и принесла сразу несколько важных изменений для тех, кто запускает ИИ‑модели локально:

  1. Поддержка Kimi CLI через Ollama
    Теперь можно установить и запускать Kimi CLI прямо из Ollama:

    ollama launch kimi --model kimi-k2.6:cloud
    

    Kimi CLI с моделью Kimi K2.6 ориентирован на длинные агентные сценарии. Он использует мультиагентную систему для задач, которые требуют много шагов и устойчивого планирования.

  2. MLX‑раннер научился работать с logprobs
    Для совместимых моделей MLX‑раннер теперь возвращает logprobs — логарифмы вероятностей по токенам. Это важно для:

    • анализа уверенности модели;
    • построения кастомных декодеров;
    • более тонкого контроля генерации.
  3. Ускоренная выборка (sampling) в MLX
    В MLX‑раннере объединили top‑P и top‑K в один проход сортировки. Плюс repeat penalties (штрафы за повторяющиеся токены) теперь применяются прямо в сэмплере. Это даёт:

    • более быструю генерацию для совместимых моделей;
    • меньше повторов и зацикливаний в ответах.
  4. Быстрее токенизация промптов в MLX
    Токенизацию перенесли в goroutines обработчиков запросов. Это разгружает общий поток и уменьшает задержки при большом количестве параллельных запросов.

  5. Безопасная работа с массивами в MLX
    Улучшена потокобезопасность при управлении массивами. Это снижает риск падений и странных багов при многопоточной нагрузке.

  6. Ускорение GLM4 MoE Lite
    Для GLM4 MoE Lite добавили fused sigmoid router head — объединённую реализацию роутера. Это даёт прирост производительности при маршрутизации между экспертами внутри MoE‑архитектуры.

  7. Фиксы в интерфейсе macOS‑приложения

    • Исправили баг, из‑за которого переключение чатов иногда показывало устаревшую выбранную модель в модель‑пикере.
  8. Исправление структурированных ответов для Gemma 4

    • Для Gemma 4 поправили structured outputs, когда параметр think=false. Теперь структурированные ответы работают корректнее в этом режиме.

Как это работает

Kimi CLI через Ollama

Команда:

ollama launch kimi --model kimi-k2.6:cloud

делает две вещи:

  1. Поднимает окружение для Kimi CLI через Ollama, без ручной установки отдельного клиента.
  2. Подключает облачную модель kimi-k2.6:cloud как бэкенд.

Kimi K2.6 использует мультиагентный подход: несколько специализированных "агентов" могут по очереди или параллельно обрабатывать части задачи. Это полезно для длинных сценариев, где нужно:

  • планирование из многих шагов;
  • вызов инструментов;
  • анализ промежуточных результатов.

Logprobs в MLX‑раннере

MLX‑раннер теперь может для совместимых моделей возвращать logprobs — логарифмы вероятностей каждого сгенерированного токена. Под капотом:

  • во время генерации сэмплер не только выбирает токен, но и сохраняет распределение вероятностей;
  • логарифмы этих вероятностей отдаются клиенту, который может их анализировать или визуализировать.

Fused top‑P + top‑K и repeat penalties

Раньше top‑P и top‑K могли обрабатываться по отдельности. Теперь в MLX:

  • кандидаты сортируются один раз;
  • к ним одновременно применяются ограничения top‑K и top‑P;
  • затем учитываются repeat penalties, которые понижают вероятность уже встречавшихся токенов.

Это уменьшает количество операций и ускоряет генерацию, особенно на длинных последовательностях.

Токенизация в goroutines

Токенизацию промпта перенесли в goroutines обработчиков запросов. Это значит:

  • каждый запрос токенизируется в своём лёгком потоке;
  • меньше блокировок общего ресурса;
  • выше пропускная способность при большом числе одновременных запросов.

Потокобезопасность массивов в MLX

Улучшено управление массивами в многопоточной среде:

  • аккуратнее работают блокировки и доступ к общим структурам;
  • меньше шансов получить гонки данных и падения под нагрузкой.

Fused sigmoid router head в GLM4 MoE Lite

GLM4 MoE Lite использует Mixture‑of‑Experts. В такой архитектуре роутер решает, какие "эксперты" обрабатывают конкретный токен.

Fused sigmoid router head объединяет несколько операций роутера в один оптимизированный блок:

  • меньше обращений к памяти;
  • меньше промежуточных тензоров;
  • быстрее вычисляется распределение по экспертам.

Фиксы интерфейса и Gemma 4

  • В macOS‑клиенте модель‑пикер теперь корректно обновляет выбранную модель при переключении чатов.
  • У Gemma 4 при think=false раньше ломались структурированные ответы. Логика формирования structured outputs скорректирована, чтобы этот режим работал стабильно.

Что это значит для вас

Когда имеет смысл использовать Kimi CLI через Ollama

Kimi CLI с kimi-k2.6:cloud подойдёт, если вы:

  • строите длинные агентные пайплайны: сложные сценарии автоматизации, многошаговые расследования, ресёрч с разветвлённой логикой;
  • хотите протестировать мультиагентный подход без самостоятельной сборки инфраструктуры;
  • уже используете Ollama и хотите добавить ещё один облачный бэкенд одной командой.

Когда Kimi CLI не лучший выбор:

  • если вам нужна строго офлайн‑работа без облака;
  • если задачи простые: короткие ответы, чат‑бот для справок, генерация небольших текстов — тут мультиагентность может быть избыточной.

Что даёт обновлённый MLX‑раннер

Обновления MLX полезны, если вы:

  • разворачиваете Ollama на Apple Silicon и активно гоняете модели локально;
  • делаете многопользовательские сервисы поверх Ollama и упираетесь в задержки и конкуренцию запросов;
  • хотите анализировать уверенность модели через logprobs или строить свои стратегии сэмплинга.

Где MLX‑улучшения особенно полезны:

  • генерация длинных текстов, кода, сценариев, где важна скорость и отсутствие повторов;
  • интерактивные приложения с несколькими одновременными пользователями;
  • исследовательские инструменты, которые визуализируют вероятности токенов.

Где эффекта будет мало:

  • если вы запускаете один небольшой запрос раз в несколько минут;
  • если используемая модель не поддерживает logprobs или не работает через MLX.

Кому важен фикс Gemma 4 и GLM4 MoE Lite

  • Если вы полагаетесь на structured outputs Gemma 4 и используете режим think=false, обновление избавит от неожиданных сбоев структуры ответа.
  • Если вы запускаете GLM4 MoE Lite, fused sigmoid router head даст прирост скорости, особенно на длинных последовательностях и при высокой нагрузке.

Доступность и ограничения

  • Kimi CLI с kimi-k2.6:cloud использует облачную модель. Для работы нужен доступ к соответствующему облаку через интернет.
  • Если вы находитесь в регионе с ограничениями доступа к зарубежным сервисам, может потребоваться VPN или прокси‑настройка, как и для других облачных ИИ.
  • Локальные улучшения MLX и интерфейсные фиксы в macOS‑приложении работают без VPN, если вы уже используете Ollama локально.

Место на рынке

По самому обновлению Ollama 0.23 нет прямых численных сравнений с конкурентами по скорости или качеству, но можно зафиксировать роль релиза:

  • Kimi CLI через Ollama — это ещё один вариант облачного бэкенда, который дополняет локальные модели. Он ориентирован на долгие агентные сценарии, где классический чат‑режим GPT‑подобных моделей не всегда удобен.
  • MLX‑улучшения усиливают позицию Ollama как удобного способа запускать модели на Apple‑устройствах с упором на локальную скорость и стабильность.
  • Поддержка logprobs и улучшения structured outputs (Gemma 4) делают Ollama более удобной основой для разработчиков, которые строят поверх неё собственные продукты и интерфейсы.

Если вы уже используете Ollama, обновление до 0.23 имеет смысл почти во всех сценариях: оно не ломает привычный флоу, но добавляет Kimi CLI, ускоряет MLX и чинит заметные баги в интерфейсе и structured outputs.

Как запустить

Kimi CLI с Kimi K2.6 через Ollama

Базовая команда из релиза:

ollama launch kimi --model kimi-k2.6:cloud

Эта команда:

  • запускает Kimi CLI;
  • подключает модель kimi-k2.6:cloud как источник ответов;
  • позволяет работать с мультиагентной системой Kimi через уже знакомый вам Ollama.

Дальше вы можете интегрировать этот вызов в свои скрипты, инструменты разработчика или использовать как отдельный ИИ‑клиент для длинных задач.


Читайте также