ИИ на офисном ПК: как выжать максимум из крошечной LLM без GPU — VogueTech

Что нового

Газпром ЦПС показал, что корпоративный ИИ можно запускать даже без GPU — на обычных CPU и в полностью закрытом контуре. Не на уровне прототипа «для презентации», а с измеряемым качеством и понятным пайплайном улучшений.

Ключевые элементы кейса:

Железо: только CPU, без серверных GPU Nvidia A100/H100/H200.
Модель: qwen3:0.6b — языковая модель всего на 0,6 млрд параметров.
Время ответа: от 2 секунд на CPU.
Контур: полностью локальный, без выхода в интернет.
Задача: ответы на вопросы по программе газификации РФ (ПП РФ №1547 от 13.09.2021).
Оценка качества: LLM-as-a-Judge, числовой балл 1–100 за каждый ответ.
Инструмент: LLLaMBA (Local LLM Benchmark Automat) — утилита для автоматизации бенчмарков с конфигами в YAML и датасетами в XLSX.
Результат верхней планки: при «cheat»-режиме (когда правильный ответ подсказывают в промте) медианный балл 100 из 100 без разброса.

LLLaMBA позволяет быстро прогонять разные варианты промтов и пайплайнов, смотреть, как меняется качество, и возвращаться к доработке, пока результат не устроит бизнес.

Как это работает

Общая схема эксперимента

Команда Газпром ЦПС собрала минимально жизнеспособный стек для проверки гипотез по корпоративному ИИ:

Датасет вопросов и ответов
- Вопросы на тему программы газификации РФ, понятные обычному пользователю.
- Источник правильных ответов — Постановление Правительства РФ №1547.
- Формат: .xlsx с колонками «вопрос», «контекст» (если нужен), «правильный ответ».
Конфиг эксперимента
- Формат: .yaml.
- В конфиге задаются:
  - используемый пайплайн (например, cheat),
  - системный промт,
  - шаблон промта для модели,
  - параметры генерации (temperature, top_p, top_k),
  - число повторений (num_repetitions).
Запуск LLLaMBA
- Инструмент читает YAML-конфиг и XLSX-датасет.
- Для каждого вопроса собирает промт и отправляет его в локальную LLM через ollama.
- Получает ответ и отправляет его, вместе с эталонным ответом, в «судью» — модель Qwen3-Max через OpenAI-совместимое API.
- Судья выставляет оценку от 1 до 100 за каждый пример.
- LLLaMBA логирует весь поток: промты, ответы, оценки.
Оценка результата
- Считается медианный балл по серии запусков и диапазон оценок.
- На основе этих цифр команда решает, нужно ли менять промт, пайплайн или саму модель.

Почему нужна серия запусков

LLM — вероятностные модели. Это влияет сразу на два уровня:

Ответ qwen3:0.6b может меняться от запуска к запуску даже при одинаковом вопросе.
Судья Qwen3-Max тоже не всегда выдаёт идентичный балл за один и тот же ответ.

Чтобы не попасть в ловушку случайности:

запускают серию экспериментов (рекомендация — 5 и более прогонов);
смотрят не только на цифры, но и на реальные ответы (Human-as-a-Judge поверх LLM-as-a-Judge).

«Cheat»-пайплайн: определяем потолок модели

Перед тем как строить сложную систему, команда оценивает теоретический максимум качества для конкретной LLM.

Для этого используют «cheat»-режим: в промт к модели сразу добавляют правильный ответ и просят его повторить. Параметры генерации делают почти детерминированными.

Пример конфига cheat.yaml:

pipeline: cheat
system_prompt: "" # prompt_template: "Вопрос: {question}\nОтвет: {ground_truth}\nПовтори ответ."
parameters:
  temperature: 0.1 # низкая температура для более детерминированного ответа
  top_p: 0.1
  top_k: 10
num_repetitions: 5

Команда запуска бенчмарка:

uv run main.py --config configs/cheat.yaml

Фрагмент результата:

>>> ...
>>> Итог по серии: медианный балл 100.0, разброс от 100.0 до 100.0

Это показывает, что при правильно поданном контексте и жёстких настройках генерации даже крошечная qwen3:0.6b способна полностью воспроизводить нужный ответ.

Дальше можно постепенно усложнять условия: убирать подсказку, давать только выдержки из документа, менять формат вопроса, добавлять RAG и т.п. LLLaMBA как раз нужен, чтобы всё это автоматизировать.

Что это значит для вас

Когда у вас нет GPU, но нужен ИИ

Российский корпоративный сегмент живёт в условиях дефицита серверных GPU: поставки Nvidia A100/H100/H200 под санкциями с 2022 года. На рынке растут продажи игровых видеокарт, в том числе RTX 3050 и 4060 (рост +60% за 9 месяцев 2025 года), и бизнес часто использует их как суррогат серверных решений.

Кейс Газпром ЦПС показывает альтернативный путь:

использовать маленькие, но быстрые LLM;
запускать их на CPU;
держать всё в закрытом контуре, без утечки данных;
заранее проверять, потянет ли такая связка вашу задачу.

Это особенно полезно, если вы:

работаете с чувствительными данными (энергетика, финтех, госсектор);
не можете использовать публичные облака;
не готовы сразу инвестировать в тяжёлые GPU-кластеры;
хотите быстро проверить, принесёт ли ИИ пользу конкретному бизнес-процессу.

Какие задачи имеют смысл

Подход из кейса хорошо ложится на сценарии:

FAQ и справочные системы по внутренним регламентам, договорам, постановлениям.
Помощники для операторов колл-центров, которые подсказывают выдержки из нормативки.
Навигация по корпоративным документам: «что мне делать, если…», «имею ли я право на…».

Пример из кейса — вопросы, которые может задать житель России:

нужно ли платить за подготовку договора на подключение газа;
правомерно ли требование дополнительных справок;
куда обращаться за заявкой на подключение;
может ли газовая компания отказать из-за «нет мест» или «сейчас не занимаемся подключениями»;
можно ли бесплатно подключить небольшую пекарню по программе догазификации.

На такие вопросы qwen3:0.6b при правильной подаче контекста способна давать вменяемые ответы даже на CPU.

Где подход не сработает

Не стоит рассчитывать на крошечную LLM без GPU, если вам нужно:

сложное многошаговое рассуждение (стратегическое планирование, сложная аналитика);
высокая креативность (длинные тексты, сценарии, сложный маркетинг);
работа с мультимодальностью (изображения, видео, аудио);
массовый параллельный трафик с жёсткими SLA по задержкам.

Маленькая модель хороша для точечных, регламентных задач, где главное — не креатив, а устойчивое следование правилам и доступ к правильному контексту.

Как использовать подход на своих данных

Практический план:

Соберите датасет
- 10–50 типичных вопросов из вашей предметной области.
- Для каждого подготовьте эталонный ответ и, при необходимости, выдержку из документа.
Поднимите локальную LLM через ollama
- Возьмите qwen3:0.6b или аналогичную маленькую модель.
- Убедитесь, что время ответа на CPU укладывается в рабочие рамки (2–5 секунд).
Разверните LLLaMBA
- Склонируйте репозиторий из материала Газпром ЦПС.
- Настройте доступ к модели-судье через OpenAI-совместимое API (в кейсе использована Qwen3-Max).
Опишите эксперимент в YAML
- Задайте пайплайн (начните с cheat, чтобы понять потолок модели).
- Установите параметры генерации (низкая температура, низкий top_p и top_k для стабильности).
Запустите серию бенчмарков
- Не меньше 5 прогонов.
- Смотрите на медианный балл и разброс.
- Выборочно проверяйте ответы глазами.
Решите, что делать дальше
- Если качество приемлемо — можно переходить к прототипу продукта.
- Если нет — пробуйте другой промт, другой пайплайн или более крупную модель.

Место на рынке

На глобальном рынке корпоративного ИИ доминируют тяжёлые модели вроде GPT-4o и Claude 3, которые требуют серьёзной инфраструктуры и подключения к внешним API. В российском корпоративном сегменте к этому добавляются санкции и ограничения на поставки серверных GPU.

На этом фоне подход Газпром ЦПС занимает свою нишу:

По ресурсам: qwen3:0.6b на CPU — это противоположность GPT-4o, который обычно живёт в облаке на мощных GPU. Здесь ставка на минимальные требования к железу.
По скорости: время ответа от 2 секунд на CPU — медленнее, чем у облачных гигантов на GPU, но достаточно для внутренних справочных систем.
По приватности: всё, кроме судьи, работает в закрытом контуре. Для многих компаний это важнее, чем доступ к самой мощной модели на рынке.
По подходу к оценке: LLLaMBA с LLM-as-a-Judge и Human-as-a-Judge даёт воспроизводимый способ сравнивать пайплайны без дорогих пользовательских исследований на каждом шаге.

Это не замена GPT-4o или Claude 3 для сложных задач, а практичный путь для тех, кто хочет получить пользу от ИИ уже сейчас, не дожидаясь появления доступных серверных GPU и не вынося данные наружу.

Как запустить

Ниже — ключевые элементы запуска из кейса. Полный код и конфиги лежат в репозитории LLLaMBA, на который ссылается Газпром ЦПС.

1. Подготовьте конфиг эксперимента

Пример configs/cheat.yaml:

pipeline: cheat
system_prompt: "" # prompt_template: "Вопрос: {question}\nОтвет: {ground_truth}\nПовтори ответ."
parameters:
  temperature: 0.1 # низкая температура для более детерминированного ответа
  top_p: 0.1
  top_k: 10
num_repetitions: 5

2. Запустите LLLaMBA

uv run main.py --config configs/cheat.yaml

LLLaMBA сама:

прочитает датасет из XLSX;
соберёт промты для qwen3:0.6b;
получит ответы и отправит их судье Qwen3-Max;
посчитает медианный балл и диапазон по серии запусков.

На выходе вы получаете не абстрактное впечатление «модель вроде умная», а конкретную цифру качества на ваших вопросах. И уже от этой цифры можно отталкиваться при планировании реального продукта.