Ollama разогнала локальный ИИ на Mac: переход на Apple MLX ускорил инференс в 2 раза — VogueTech

Что появилось / что изменилось

Ollama сделала ставку на Apple MLX — фреймворк для работы с нейросетями на Mac. За счёт этого инференс LLM на macOS стал примерно вдвое быстрее. Речь именно о запуске моделей локально, на вашем компьютере, без похода в облако.

Ollama по‑прежнему распространяется бесплатно и ставится в один шаг:

macOS и Linux: curl -fsSL https://ollama.com/install.sh | sh
Windows: irm https://ollama.com/install.ps1 | iex

После установки вы можете сразу запускать модели из встроенной библиотеки. Пример:

чат с Gemma 3: ollama run gemma3
запуск интеграции с ассистентом: ollama launch openclaw
запуск код‑ассистента: ollama launch claude

Для разработчиков добавлены и официально поддерживаются:

REST API на порту localhost:11434;
готовые клиенты для Python (pip install ollama) и JavaScript (npm i ollama).

Оllama также упакована в официальный Docker‑образ ollama/ollama на Docker Hub. Это упрощает развёртывание на сервере или в облаке.

Как это работает

Под капотом Ollama использует несколько бэкендов для инференса, один из них — стек из проекта llama.cpp, который написал Георги Герганов. Этот стек оптимизирует работу LLM под CPU и GPU, в том числе под архитектуру Apple Silicon.

Переход на Apple MLX означает, что на Mac вычисления для моделей идут через библиотеку, которую Apple настроила специально для чипов M‑серии. MLX умеет эффективно использовать GPU и нейронный блок, поэтому генерация ответов и обработка контекста на macOS ускоряются примерно в 2 раза по сравнению с предыдущим стеком.

Доступ к моделям происходит через единый интерфейс:

CLI (ollama run, ollama launch),
REST API (POST /api/chat),
SDK для Python и JavaScript.

Пример REST‑запроса к локальному чату с Gemma 3:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "gemma3",
    "messages": [
      { "role": "user", "content": "Why is the sky blue?" }
    ],
    "stream": false
  }'

Что это значит для вас

Если у вас Mac на чипе Apple Silicon, Ollama стала заметно комфортнее в ежедневной работе. Ответы приходят быстрее, можно запускать более тяжёлые модели без ощущения, что ноутбук вот‑вот задохнётся.

Где это полезно:

Локальный ИИ‑ассистент. Через OpenClaw вы подключаете Ollama к WhatsApp, Telegram, Slack, Discord и используете Gemma или другие модели как персонального помощника без отправки запросов в облако.
Разработка и код‑ревью. Интеграции с Claude Code, Codex, Droid и OpenCode помогают дописывать код, объяснять ошибки и предлагать рефакторинг локально.
Чат‑клиенты и десктопные приложения. Есть готовые интерфейсы (SwiftChat, Enchanted, Maid, Ollama App, Reins, ConfiChat) и Android‑клиент Ollama Android Chat. Вы получаете «аналог ChatGPT», который живёт у вас на машине.
RAG и базы знаний. Интеграции с RAGFlow, R2R, MaxKB, Minima, ARGO, Archyve, Casibase и BrainSoup позволяют строить чат‑ботов по внутренней документации, не выгружая данные в сторонние облака.
Автономные агенты. Через AutoGPT, crewAI, Strands Agents, Cheshire Cat, any-agent, Hexabot, Stakpak и Neuro SAN вы можете строить сложные LLM‑фреймворки, которые работают с локальным бэкендом Ollama.

Где Ollama не лучший выбор:

если вам нужны самые сильные облачные модели вроде GPT‑4o или Claude 3 Opus на пределе их возможностей;
если у вас слабый ноутбук без Apple Silicon или с очень маленьким объёмом RAM;
если вы не готовы разбираться с терминалом, Docker и конфигурацией RAG‑систем.

Для работы в России нужен доступ к сайту ollama.com и Docker Hub на этапе загрузки. После установки сами модели и инференс работают локально. REST API и CLI используют localhost, поэтому VPN для ежедневного использования не обязателен.

Место на рынке

Ollama играет в другом поле, чем облачные сервисы вроде ChatGPT или Claude: она делает ставку на локальный запуск. Пользователь ставит бинарник, скачивает модель и дальше общается с LLM без постоянного подключения к интернету.

По функциональности экосистема Ollama уже сравнима с крупными игроками:

есть свои клиенты для Python и JavaScript;
есть интеграции с AutoGPT, crewAI, Strands Agents, Cheshire Cat, any-agent;
есть RAG‑решения (RAGFlow, R2R, MaxKB, Minima и другие);
есть мониторинг через Opik, OpenLIT, Lunary, Langfuse, HoneyHive и MLflow Tracing.

Ключевое отличие — упор на локальность и открытые модели, которые вы запускаете через единый интерфейс. При этом Ollama не привязана к одной среде: есть образы для Docker, поддержка развёртывания на Google Cloud, Fly.io, Koyeb и в инструментах вроде Harbor.

Если вам важна приватность, скорость на Mac и возможность менять модели без вендор‑локина, связка Ollama + Apple MLX выглядит логичным выбором. Если критичны только качество ответов и минимальная морока с настройкой, то облачные сервисы всё ещё проще, но и они не дадут локальной автономности, которую сейчас предлагает Ollama на Mac.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также