- Дата публикации
Маленькие модели Qwen3 обгоняют GPT-5 и Claude в конкретных задачах и экономят до 99% бюджета
Что появилось / что изменилось
Исследователи из Distil Labs опубликовали системное сравнение маленьких дообученных (дистиллированных) моделей Qwen3 размером от 0.6 до 8 миллиардов параметров с топовыми коммерческими ИИ от OpenAI, Google, Anthropic и xAI. Тестирование на 9 наборах данных показало, что по узким, структурированным задачам компактные модели не просто догоняют, а часто превосходят гигантов, радикально выигрывая в стоимости.
Ключевые цифры:
- Smart Home Function Calling: Qwen3-0.6B показал точность 98.7%, обойдя Gemini Flash (92.0%).
- Text2SQL: Qwen3-4B достиг 98.0%, сравнявшись с Claude Haiku (98.7%) и обогнав GPT-5 nano (96.0%). При этом стоимость обработки 1 миллиона запросов — около $3 против $378 у Haiku и $24 у GPT-5 nano.
- Классификация текста (Banking77, E-commerce, TREC): Разрыв между дистиллированными моделями и лучшим коммерческим вариантом составил всего 0–1.5 процентных пункта.
- Скорость работы: Qwen3-4B на одном GPU H100 в задаче Text2SQL выдаёт 222 запроса в секунду. Задержка (p95) — 640 миллисекунд. Модель занимает 7.6 ГБ видеопамяти.
- Экономия: Использование FP8-квантования дало прирост скорости на 15% и снижение потребления памяти на 44% без потери точности в тестах.
Как это работает
Модели Qwen3 прошли процесс дистилляции знаний — «дообучения на малых данных». В качестве учителей использовались только открытые модели (например, более крупные версии Qwen), без привлечения выходных данных коммерческих API вроде GPT-5. Удивительно, но для эффективного обучения в некоторых случаях хватило всего 50 примеров. Это позволило перенять узкоспециализированные навыки, сохранив минимальный размер. Инференс проводился на фреймворке vLLM на одной видеокарте H100. Все модели, код, данные и скрипты для оценки открыты.
Что это значит для вас
Главный практический вывод — выбор между собственной маленькой моделью и дорогим API теперь можно делать на основе типа задачи и бюджета.
Используйте дистиллированную модель, если:
- Ваша задача — классификация, извлечение структуры, function calling или генерация SQL-запросов.
- Есть чёткая схема или формат ответа.
- Ожидается высокий объём запросов (тысячи и миллионы).
- Критична стоимость: разница может достигать 100 раз.
- Важна цифровой суверенитет — данные не должны покидать вашу инфраструктуру.
Обращайтесь к коммерческим API (GPT-5, Claude, Gemini), если:
- Нужны широкие знания о мире, рассуждения или свободное творчество. Например, в тесте HotpotQA на сложные вопросы Haiku набрал 98.0%, а лучшая дистиллированная модель — 92.0%.
- Объём запросов низкий, и экономия не принципиальна.
- Нет ресурсов или экспертизы для развёртывания своей модели.
Оптимальная стратегия: внедрить систему маршрутизации, которая автоматически отправляет структурированные задачи вашей маленькой модели, а сложные и творческие — коммерческому ИИ. Это даст максимум эффективности.
Место на рынке
Исследование чётко очерчивает нишу. В задачах, где важны не общие знания, а точное следование инструкции, дистиллированные Qwen3 размером до 8B параметров конкурируют с лучшими «средними» коммерческими моделями (стоимостью до $1 за мегатокен на вход). Они сравнялись или обогнали их в 6 из 9 тестов и почти сравнялись в 7-м.
По производительности на одном H100 они не имеют прямых аналогов среди облачных API, так как те считают стоимость за токен, а не за запрос в секунду. Их главные конкуренты — другие открытые small language models (SLM), но работа Distil Labs демонстрирует, что даже крошечная 0.6B-модель после целенаправленного дообучения может достичь паритета с GPT-5 или Claude в своей узкой области, предлагая беспрецедентное соотношение цены, скорости и качества для конкретных сценариев.