- Дата публикации
ИИ на офисном ПК: как выжать максимум из крошечной LLM без GPU
Что нового
Газпром ЦПС показал, что корпоративный ИИ можно запускать даже без GPU — на обычных CPU и в полностью закрытом контуре. Не на уровне прототипа «для презентации», а с измеряемым качеством и понятным пайплайном улучшений.
Ключевые элементы кейса:
- Железо: только CPU, без серверных GPU Nvidia A100/H100/H200.
- Модель: qwen3:0.6b — языковая модель всего на 0,6 млрд параметров.
- Время ответа: от 2 секунд на CPU.
- Контур: полностью локальный, без выхода в интернет.
- Задача: ответы на вопросы по программе газификации РФ (ПП РФ №1547 от 13.09.2021).
- Оценка качества: LLM-as-a-Judge, числовой балл 1–100 за каждый ответ.
- Инструмент: LLLaMBA (Local LLM Benchmark Automat) — утилита для автоматизации бенчмарков с конфигами в YAML и датасетами в XLSX.
- Результат верхней планки: при «cheat»-режиме (когда правильный ответ подсказывают в промте) медианный балл 100 из 100 без разброса.
LLLaMBA позволяет быстро прогонять разные варианты промтов и пайплайнов, смотреть, как меняется качество, и возвращаться к доработке, пока результат не устроит бизнес.
Как это работает
Общая схема эксперимента
Команда Газпром ЦПС собрала минимально жизнеспособный стек для проверки гипотез по корпоративному ИИ:
-
Датасет вопросов и ответов
- Вопросы на тему программы газификации РФ, понятные обычному пользователю.
- Источник правильных ответов — Постановление Правительства РФ №1547.
- Формат: .xlsx с колонками «вопрос», «контекст» (если нужен), «правильный ответ».
-
Конфиг эксперимента
- Формат: .yaml.
- В конфиге задаются:
- используемый пайплайн (например,
cheat), - системный промт,
- шаблон промта для модели,
- параметры генерации (temperature, top_p, top_k),
- число повторений (
num_repetitions).
- используемый пайплайн (например,
-
Запуск LLLaMBA
- Инструмент читает YAML-конфиг и XLSX-датасет.
- Для каждого вопроса собирает промт и отправляет его в локальную LLM через ollama.
- Получает ответ и отправляет его, вместе с эталонным ответом, в «судью» — модель Qwen3-Max через OpenAI-совместимое API.
- Судья выставляет оценку от 1 до 100 за каждый пример.
- LLLaMBA логирует весь поток: промты, ответы, оценки.
-
Оценка результата
- Считается медианный балл по серии запусков и диапазон оценок.
- На основе этих цифр команда решает, нужно ли менять промт, пайплайн или саму модель.
Почему нужна серия запусков
LLM — вероятностные модели. Это влияет сразу на два уровня:
- Ответ qwen3:0.6b может меняться от запуска к запуску даже при одинаковом вопросе.
- Судья Qwen3-Max тоже не всегда выдаёт идентичный балл за один и тот же ответ.
Чтобы не попасть в ловушку случайности:
- запускают серию экспериментов (рекомендация — 5 и более прогонов);
- смотрят не только на цифры, но и на реальные ответы (Human-as-a-Judge поверх LLM-as-a-Judge).
«Cheat»-пайплайн: определяем потолок модели
Перед тем как строить сложную систему, команда оценивает теоретический максимум качества для конкретной LLM.
Для этого используют «cheat»-режим: в промт к модели сразу добавляют правильный ответ и просят его повторить. Параметры генерации делают почти детерминированными.
Пример конфига cheat.yaml:
pipeline: cheat
system_prompt: "" # prompt_template: "Вопрос: {question}\nОтвет: {ground_truth}\nПовтори ответ."
parameters:
temperature: 0.1 # низкая температура для более детерминированного ответа
top_p: 0.1
top_k: 10
num_repetitions: 5
Команда запуска бенчмарка:
uv run main.py --config configs/cheat.yaml
Фрагмент результата:
>>> ...
>>> Итог по серии: медианный балл 100.0, разброс от 100.0 до 100.0
Это показывает, что при правильно поданном контексте и жёстких настройках генерации даже крошечная qwen3:0.6b способна полностью воспроизводить нужный ответ.
Дальше можно постепенно усложнять условия: убирать подсказку, давать только выдержки из документа, менять формат вопроса, добавлять RAG и т.п. LLLaMBA как раз нужен, чтобы всё это автоматизировать.
Что это значит для вас
Когда у вас нет GPU, но нужен ИИ
Российский корпоративный сегмент живёт в условиях дефицита серверных GPU: поставки Nvidia A100/H100/H200 под санкциями с 2022 года. На рынке растут продажи игровых видеокарт, в том числе RTX 3050 и 4060 (рост +60% за 9 месяцев 2025 года), и бизнес часто использует их как суррогат серверных решений.
Кейс Газпром ЦПС показывает альтернативный путь:
- использовать маленькие, но быстрые LLM;
- запускать их на CPU;
- держать всё в закрытом контуре, без утечки данных;
- заранее проверять, потянет ли такая связка вашу задачу.
Это особенно полезно, если вы:
- работаете с чувствительными данными (энергетика, финтех, госсектор);
- не можете использовать публичные облака;
- не готовы сразу инвестировать в тяжёлые GPU-кластеры;
- хотите быстро проверить, принесёт ли ИИ пользу конкретному бизнес-процессу.
Какие задачи имеют смысл
Подход из кейса хорошо ложится на сценарии:
- FAQ и справочные системы по внутренним регламентам, договорам, постановлениям.
- Помощники для операторов колл-центров, которые подсказывают выдержки из нормативки.
- Навигация по корпоративным документам: «что мне делать, если…», «имею ли я право на…».
Пример из кейса — вопросы, которые может задать житель России:
- нужно ли платить за подготовку договора на подключение газа;
- правомерно ли требование дополнительных справок;
- куда обращаться за заявкой на подключение;
- может ли газовая компания отказать из-за «нет мест» или «сейчас не занимаемся подключениями»;
- можно ли бесплатно подключить небольшую пекарню по программе догазификации.
На такие вопросы qwen3:0.6b при правильной подаче контекста способна давать вменяемые ответы даже на CPU.
Где подход не сработает
Не стоит рассчитывать на крошечную LLM без GPU, если вам нужно:
- сложное многошаговое рассуждение (стратегическое планирование, сложная аналитика);
- высокая креативность (длинные тексты, сценарии, сложный маркетинг);
- работа с мультимодальностью (изображения, видео, аудио);
- массовый параллельный трафик с жёсткими SLA по задержкам.
Маленькая модель хороша для точечных, регламентных задач, где главное — не креатив, а устойчивое следование правилам и доступ к правильному контексту.
Как использовать подход на своих данных
Практический план:
-
Соберите датасет
- 10–50 типичных вопросов из вашей предметной области.
- Для каждого подготовьте эталонный ответ и, при необходимости, выдержку из документа.
-
Поднимите локальную LLM через ollama
- Возьмите qwen3:0.6b или аналогичную маленькую модель.
- Убедитесь, что время ответа на CPU укладывается в рабочие рамки (2–5 секунд).
-
Разверните LLLaMBA
- Склонируйте репозиторий из материала Газпром ЦПС.
- Настройте доступ к модели-судье через OpenAI-совместимое API (в кейсе использована Qwen3-Max).
-
Опишите эксперимент в YAML
- Задайте пайплайн (начните с cheat, чтобы понять потолок модели).
- Установите параметры генерации (низкая температура, низкий top_p и top_k для стабильности).
-
Запустите серию бенчмарков
- Не меньше 5 прогонов.
- Смотрите на медианный балл и разброс.
- Выборочно проверяйте ответы глазами.
-
Решите, что делать дальше
- Если качество приемлемо — можно переходить к прототипу продукта.
- Если нет — пробуйте другой промт, другой пайплайн или более крупную модель.
Место на рынке
На глобальном рынке корпоративного ИИ доминируют тяжёлые модели вроде GPT-4o и Claude 3, которые требуют серьёзной инфраструктуры и подключения к внешним API. В российском корпоративном сегменте к этому добавляются санкции и ограничения на поставки серверных GPU.
На этом фоне подход Газпром ЦПС занимает свою нишу:
- По ресурсам: qwen3:0.6b на CPU — это противоположность GPT-4o, который обычно живёт в облаке на мощных GPU. Здесь ставка на минимальные требования к железу.
- По скорости: время ответа от 2 секунд на CPU — медленнее, чем у облачных гигантов на GPU, но достаточно для внутренних справочных систем.
- По приватности: всё, кроме судьи, работает в закрытом контуре. Для многих компаний это важнее, чем доступ к самой мощной модели на рынке.
- По подходу к оценке: LLLaMBA с LLM-as-a-Judge и Human-as-a-Judge даёт воспроизводимый способ сравнивать пайплайны без дорогих пользовательских исследований на каждом шаге.
Это не замена GPT-4o или Claude 3 для сложных задач, а практичный путь для тех, кто хочет получить пользу от ИИ уже сейчас, не дожидаясь появления доступных серверных GPU и не вынося данные наружу.
Как запустить
Ниже — ключевые элементы запуска из кейса. Полный код и конфиги лежат в репозитории LLLaMBA, на который ссылается Газпром ЦПС.
1. Подготовьте конфиг эксперимента
Пример configs/cheat.yaml:
pipeline: cheat
system_prompt: "" # prompt_template: "Вопрос: {question}\nОтвет: {ground_truth}\nПовтори ответ."
parameters:
temperature: 0.1 # низкая температура для более детерминированного ответа
top_p: 0.1
top_k: 10
num_repetitions: 5
2. Запустите LLLaMBA
uv run main.py --config configs/cheat.yaml
LLLaMBA сама:
- прочитает датасет из XLSX;
- соберёт промты для qwen3:0.6b;
- получит ответы и отправит их судье Qwen3-Max;
- посчитает медианный балл и диапазон по серии запусков.
На выходе вы получаете не абстрактное впечатление «модель вроде умная», а конкретную цифру качества на ваших вопросах. И уже от этой цифры можно отталкиваться при планировании реального продукта.