Дата публикации
ai_products

ИИ на офисном ПК: как выжать максимум из крошечной LLM без GPU

Что нового

Газпром ЦПС показал, что корпоративный ИИ можно запускать даже без GPU — на обычных CPU и в полностью закрытом контуре. Не на уровне прототипа «для презентации», а с измеряемым качеством и понятным пайплайном улучшений.

Ключевые элементы кейса:

  • Железо: только CPU, без серверных GPU Nvidia A100/H100/H200.
  • Модель: qwen3:0.6b — языковая модель всего на 0,6 млрд параметров.
  • Время ответа: от 2 секунд на CPU.
  • Контур: полностью локальный, без выхода в интернет.
  • Задача: ответы на вопросы по программе газификации РФ (ПП РФ №1547 от 13.09.2021).
  • Оценка качества: LLM-as-a-Judge, числовой балл 1–100 за каждый ответ.
  • Инструмент: LLLaMBA (Local LLM Benchmark Automat) — утилита для автоматизации бенчмарков с конфигами в YAML и датасетами в XLSX.
  • Результат верхней планки: при «cheat»-режиме (когда правильный ответ подсказывают в промте) медианный балл 100 из 100 без разброса.

LLLaMBA позволяет быстро прогонять разные варианты промтов и пайплайнов, смотреть, как меняется качество, и возвращаться к доработке, пока результат не устроит бизнес.

Как это работает

Общая схема эксперимента

Команда Газпром ЦПС собрала минимально жизнеспособный стек для проверки гипотез по корпоративному ИИ:

  1. Датасет вопросов и ответов

    • Вопросы на тему программы газификации РФ, понятные обычному пользователю.
    • Источник правильных ответов — Постановление Правительства РФ №1547.
    • Формат: .xlsx с колонками «вопрос», «контекст» (если нужен), «правильный ответ».
  2. Конфиг эксперимента

    • Формат: .yaml.
    • В конфиге задаются:
      • используемый пайплайн (например, cheat),
      • системный промт,
      • шаблон промта для модели,
      • параметры генерации (temperature, top_p, top_k),
      • число повторений (num_repetitions).
  3. Запуск LLLaMBA

    • Инструмент читает YAML-конфиг и XLSX-датасет.
    • Для каждого вопроса собирает промт и отправляет его в локальную LLM через ollama.
    • Получает ответ и отправляет его, вместе с эталонным ответом, в «судью» — модель Qwen3-Max через OpenAI-совместимое API.
    • Судья выставляет оценку от 1 до 100 за каждый пример.
    • LLLaMBA логирует весь поток: промты, ответы, оценки.
  4. Оценка результата

    • Считается медианный балл по серии запусков и диапазон оценок.
    • На основе этих цифр команда решает, нужно ли менять промт, пайплайн или саму модель.

Почему нужна серия запусков

LLM — вероятностные модели. Это влияет сразу на два уровня:

  • Ответ qwen3:0.6b может меняться от запуска к запуску даже при одинаковом вопросе.
  • Судья Qwen3-Max тоже не всегда выдаёт идентичный балл за один и тот же ответ.

Чтобы не попасть в ловушку случайности:

  • запускают серию экспериментов (рекомендация — 5 и более прогонов);
  • смотрят не только на цифры, но и на реальные ответы (Human-as-a-Judge поверх LLM-as-a-Judge).

«Cheat»-пайплайн: определяем потолок модели

Перед тем как строить сложную систему, команда оценивает теоретический максимум качества для конкретной LLM.

Для этого используют «cheat»-режим: в промт к модели сразу добавляют правильный ответ и просят его повторить. Параметры генерации делают почти детерминированными.

Пример конфига cheat.yaml:

pipeline: cheat
system_prompt: "" # prompt_template: "Вопрос: {question}\nОтвет: {ground_truth}\nПовтори ответ."
parameters:
  temperature: 0.1 # низкая температура для более детерминированного ответа
  top_p: 0.1
  top_k: 10
num_repetitions: 5

Команда запуска бенчмарка:

uv run main.py --config configs/cheat.yaml

Фрагмент результата:

>>> ...
>>> Итог по серии: медианный балл 100.0, разброс от 100.0 до 100.0

Это показывает, что при правильно поданном контексте и жёстких настройках генерации даже крошечная qwen3:0.6b способна полностью воспроизводить нужный ответ.

Дальше можно постепенно усложнять условия: убирать подсказку, давать только выдержки из документа, менять формат вопроса, добавлять RAG и т.п. LLLaMBA как раз нужен, чтобы всё это автоматизировать.

Что это значит для вас

Когда у вас нет GPU, но нужен ИИ

Российский корпоративный сегмент живёт в условиях дефицита серверных GPU: поставки Nvidia A100/H100/H200 под санкциями с 2022 года. На рынке растут продажи игровых видеокарт, в том числе RTX 3050 и 4060 (рост +60% за 9 месяцев 2025 года), и бизнес часто использует их как суррогат серверных решений.

Кейс Газпром ЦПС показывает альтернативный путь:

  • использовать маленькие, но быстрые LLM;
  • запускать их на CPU;
  • держать всё в закрытом контуре, без утечки данных;
  • заранее проверять, потянет ли такая связка вашу задачу.

Это особенно полезно, если вы:

  • работаете с чувствительными данными (энергетика, финтех, госсектор);
  • не можете использовать публичные облака;
  • не готовы сразу инвестировать в тяжёлые GPU-кластеры;
  • хотите быстро проверить, принесёт ли ИИ пользу конкретному бизнес-процессу.

Какие задачи имеют смысл

Подход из кейса хорошо ложится на сценарии:

  • FAQ и справочные системы по внутренним регламентам, договорам, постановлениям.
  • Помощники для операторов колл-центров, которые подсказывают выдержки из нормативки.
  • Навигация по корпоративным документам: «что мне делать, если…», «имею ли я право на…».

Пример из кейса — вопросы, которые может задать житель России:

  • нужно ли платить за подготовку договора на подключение газа;
  • правомерно ли требование дополнительных справок;
  • куда обращаться за заявкой на подключение;
  • может ли газовая компания отказать из-за «нет мест» или «сейчас не занимаемся подключениями»;
  • можно ли бесплатно подключить небольшую пекарню по программе догазификации.

На такие вопросы qwen3:0.6b при правильной подаче контекста способна давать вменяемые ответы даже на CPU.

Где подход не сработает

Не стоит рассчитывать на крошечную LLM без GPU, если вам нужно:

  • сложное многошаговое рассуждение (стратегическое планирование, сложная аналитика);
  • высокая креативность (длинные тексты, сценарии, сложный маркетинг);
  • работа с мультимодальностью (изображения, видео, аудио);
  • массовый параллельный трафик с жёсткими SLA по задержкам.

Маленькая модель хороша для точечных, регламентных задач, где главное — не креатив, а устойчивое следование правилам и доступ к правильному контексту.

Как использовать подход на своих данных

Практический план:

  1. Соберите датасет

    • 10–50 типичных вопросов из вашей предметной области.
    • Для каждого подготовьте эталонный ответ и, при необходимости, выдержку из документа.
  2. Поднимите локальную LLM через ollama

    • Возьмите qwen3:0.6b или аналогичную маленькую модель.
    • Убедитесь, что время ответа на CPU укладывается в рабочие рамки (2–5 секунд).
  3. Разверните LLLaMBA

    • Склонируйте репозиторий из материала Газпром ЦПС.
    • Настройте доступ к модели-судье через OpenAI-совместимое API (в кейсе использована Qwen3-Max).
  4. Опишите эксперимент в YAML

    • Задайте пайплайн (начните с cheat, чтобы понять потолок модели).
    • Установите параметры генерации (низкая температура, низкий top_p и top_k для стабильности).
  5. Запустите серию бенчмарков

    • Не меньше 5 прогонов.
    • Смотрите на медианный балл и разброс.
    • Выборочно проверяйте ответы глазами.
  6. Решите, что делать дальше

    • Если качество приемлемо — можно переходить к прототипу продукта.
    • Если нет — пробуйте другой промт, другой пайплайн или более крупную модель.

Место на рынке

На глобальном рынке корпоративного ИИ доминируют тяжёлые модели вроде GPT-4o и Claude 3, которые требуют серьёзной инфраструктуры и подключения к внешним API. В российском корпоративном сегменте к этому добавляются санкции и ограничения на поставки серверных GPU.

На этом фоне подход Газпром ЦПС занимает свою нишу:

  • По ресурсам: qwen3:0.6b на CPU — это противоположность GPT-4o, который обычно живёт в облаке на мощных GPU. Здесь ставка на минимальные требования к железу.
  • По скорости: время ответа от 2 секунд на CPU — медленнее, чем у облачных гигантов на GPU, но достаточно для внутренних справочных систем.
  • По приватности: всё, кроме судьи, работает в закрытом контуре. Для многих компаний это важнее, чем доступ к самой мощной модели на рынке.
  • По подходу к оценке: LLLaMBA с LLM-as-a-Judge и Human-as-a-Judge даёт воспроизводимый способ сравнивать пайплайны без дорогих пользовательских исследований на каждом шаге.

Это не замена GPT-4o или Claude 3 для сложных задач, а практичный путь для тех, кто хочет получить пользу от ИИ уже сейчас, не дожидаясь появления доступных серверных GPU и не вынося данные наружу.

Как запустить

Ниже — ключевые элементы запуска из кейса. Полный код и конфиги лежат в репозитории LLLaMBA, на который ссылается Газпром ЦПС.

1. Подготовьте конфиг эксперимента

Пример configs/cheat.yaml:

pipeline: cheat
system_prompt: "" # prompt_template: "Вопрос: {question}\nОтвет: {ground_truth}\nПовтори ответ."
parameters:
  temperature: 0.1 # низкая температура для более детерминированного ответа
  top_p: 0.1
  top_k: 10
num_repetitions: 5

2. Запустите LLLaMBA

uv run main.py --config configs/cheat.yaml

LLLaMBA сама:

  • прочитает датасет из XLSX;
  • соберёт промты для qwen3:0.6b;
  • получит ответы и отправит их судье Qwen3-Max;
  • посчитает медианный балл и диапазон по серии запусков.

На выходе вы получаете не абстрактное впечатление «модель вроде умная», а конкретную цифру качества на ваших вопросах. И уже от этой цифры можно отталкиваться при планировании реального продукта.


Читайте также