Дата публикации
coding

OmniCoder-9B: локальный кодер на 8 ГБ видеопамяти, который тянет 128k контекста

Что появилось / что изменилось

OmniCoder-9B — это локальная кодовая LLM на базе Qwen3.5-9B-Base, упакованная в формат GGUF и рассчитанная на запуск через llama.cpp. Главное: её реально можно запускать на видеокарте с 8 ГБ памяти.

Ключевые параметры из примерного конфига:

  • Архитектура: Qwen3.5-9B-Base
  • Формат: GGUF, пример файла — omnicoder-9b-q4_k_m.gguf
  • Квантование: q4_k_m с дополнительными параметрами -ctk q4_0 и -ctv q4_0
  • Контекст: -c 128000 — до 128k токенов контекста
  • Запуск через llama-server с включённым GPU (--gpu-layers 999)
  • Настройки генерации по умолчанию: --temp 0.6, --top-p 0.95, --top-k 20, --presence-penalty 1.5, --repeat-penalty 1.0

Автор из r/LocalLLaMA называет OmniCoder-9B «самым умным кодером / tool calling cline-моделем», с которым он работал, и отмечает, что модель по короткому запросу собрала для него целый тулкит.

Модель доступна на Hugging Face: https://huggingface.co/Tesslate/OmniCoder-9B-GGUF и рассчитана на связку с llama-server и расширением Cline в VS Code.

Как это работает

OmniCoder-9B — это 9-миллиардная кодовая модель семейства Qwen3.5, упакованная в формат GGUF для запуска через llama.cpp. Формат GGUF позволяет использовать квантование, чтобы модель помещалась в память даже на массовых GPU.

В примерном батч-скрипте автор использует:

@echo off
setlocal

echo Starting Omnicoder LLM Server...
echo.

set MODEL=./omnicoder-9b-q4_k_m.gguf
set NAME=omnicoder / Qwen3.5-9B-Base

llama-server ^
  --gpu-layers 999 ^
  --webui-mcp-proxy ^
  -a "%NAME%" ^
  -m "%MODEL%" ^
  -c 128000 ^
  --temp 0.6 ^
  --top-p 0.95 ^
  --top-k 20 ^
  --min-p 0.00 ^
  --kv-unified ^
  --flash-attn on ^
  --mlock ^
  -ctk q4_0 ^
  -ctv q4_0 ^
  --swa-full ^
  --presence-penalty 1.5 ^
  --repeat-penalty 1.0 ^
  --fit on ^
  -fa on ^
  --no-mmap ^
  --jinja ^
  --threads -1

echo.
echo Server stopped.
pause

Что важно под капотом:

  • --gpu-layers 999 — модель максимально уходит на GPU, поэтому 8 ГБ видеопамяти критичны
  • --flash-attn on — ускорение внимания, что особенно полезно при контексте 128k
  • --kv-unified и квантование K/V-кэша (-ctk q4_0, -ctv q4_0) — экономия памяти при большом контексте
  • --webui-mcp-proxy и --jinja — подготовка к работе как инструмента/сервера для клиентов вроде Cline

В связке с VS Code Cline модель выступает локальным бэкендом: Cline отправляет запросы на llama-server, OmniCoder-9B отвечает и, при необходимости, вызывает инструменты, доступные Cline.

Что это значит для вас

OmniCoder-9B интересен, если вы хотите локальный кодер с длинным контекстом и у вас есть относительно скромный по меркам ML ПК:

Подойдёт, если:

  • у вас есть видеокарта с 8 ГБ VRAM и вы готовы запускать llama.cpp
  • вы пишете код в VS Code и уже используете или готовы поставить расширение Cline
  • вам важна приватность: код и запросы остаются на вашей машине
  • вы часто работаете с большими кодовыми базами, логами или длинной документацией — 128k контекста позволяет кормить модели крупные куски проекта

Хорошие сценарии:

  • автодополнение и рефакторинг кода в локальных проектах
  • генерация утилит и «тулкитов» по текстовому описанию задачи
  • анализ и правка существующего кода без выгрузки его в облако
  • локальный «код-ревьюер» для pet-проектов

Где лучше не рассчитывать на чудеса:

  • если у вас нет дискретного GPU или меньше 8 ГБ VRAM — придётся сильно ужимать настройки или искать более лёгкую сборку
  • если вы ждёте уровня GPT-4o или Claude 3.5 Sonnet по качеству кода — это всё-таки 9B локальная модель с квантованием
  • если вы не готовы разбираться с llama.cpp, bat-скриптами и настройкой VS Code — потребуется немного ручной работы

Модель распространяется через Hugging Face. Доступ к сайту из России периодически ограничен, иногда нужен VPN и зеркала. После скачивания модель работает полностью локально, интернет ей не требуется.

Место на рынке

OmniCoder-9B закрывает нишу «умный кодер с длинным контекстом, который реально запускается на 8 ГБ видеопамяти локально».

По сравнению с крупными облачными моделями:

  • GPT-4o и Claude 3.5 Sonnet обычно дают более точные ответы по коду и лучше держат сложный контекст, но требуют стабильного интернета и передачи кода на внешние сервера
  • OmniCoder-9B работает у вас на машине, без подписок и лимитов запросов, но ограничен 9B параметров и квантованием

По сравнению с другими локальными моделями в похожем размере:

  • OmniCoder-9B заточен под код и tool calling в связке с Cline, а не под общую болтовню
  • контекст 128k в конфиге — редкая настройка для 9B локальных моделей, особенно в формате GGUF на 8 ГБ VRAM

Если вы уже используете llama.cpp и ищете кодовую модель, которая дружит с Cline и не требует 24 ГБ VRAM, OmniCoder-9B выглядит как практичный вариант для экспериментов и повседневной разработки на локальной машине.


Читайте также

OmniCoder-9B: локальный кодер на 8 ГБ видеопамяти, который тянет 128k контекста — VogueTech | VogueTech