Luna Line: как VisionLabs учит модели классификации на 50 картинках без настроек — VogueTech

Что нового

VisionLabs (MWS AI) рассказала, как устроено обучение моделей классификации в их no-code‑платформе компьютерного зрения Luna Line. Главная цель — дать пользователю «идеально обученную» модель под свою задачу даже при минимальном количестве данных.

Ключевые факты:

Порог входа по данным: от 50 изображений в обучающей выборке.
Платформа поддерживает четыре типа задач: классификация, детекция, сегментация, поиск по текстовому запросу.
Пользователь выбирает только размер модели: Small / Base / Large. Все остальные гиперпараметры система подбирает сама.
Ограничение по ресурсам на обучение: до 10 ГБ видеопамяти на модель.
Для поиска оптимной стратегии обучения классификаторов команда собрала 28 датасетов:
- примерно половина — открытые;
- примерно половина — внутренние датасеты VisionLabs.
Для каждого датасета подготовили вложенные обучающие сабсеты: 50, 100, 500, 1000, 5000 и 10 000 изображений.
Для каждого датасета зафиксированы валидационная и тестовая выборки, чтобы честно сравнивать разные конфигурации обучения.
Цель экспериментов — найти «в среднем оптимную» конфигурацию обучения классификатора, которая:
- зависит только от размера выборки;
- слабо зависит от домена (товары, металл, листья, дороги и т.д.);
- укладывается в лимит по памяти и времени.

Отдельно команда выдвинула гипотезу по масштабированию:

подобрать оптимальную архитектуру и конфигурацию обучения для base‑модели;
использовать то же семейство архитектур для small / large;
для small/large масштабировать число эпох обучения относительно base, не трогая остальные настройки.

Как это работает

Продуктовый сценарий

Luna Line — это платформа, где пользователь без навыков программирования строит пайплайны компьютерного зрения.

Типичный сценарий выглядит так:

Пользователь выбирает задачу: классификация, детекция, сегментация или текстовый запрос.
Загружает свой датасет под выбранную задачу.
Размечает данные прямо в интерфейсе.
Нажимает кнопку «Обучить модель».
Смотрит финальные метрики.
Если качество устраивает — создает API‑модель и получает endpoint для инференса.

Дополнительно можно собирать сложные пайплайны из нескольких нейросетей. Пример из статьи:

обучить детектор, который находит, например, свиней на ферме;
добавить к нему трекер и отслеживать перемещение животных на видео;
по результатам трекинга автоматически нарезать кропы свиней;
разметить эти кропы по дополнительным признакам (например, по цвету);
обучить еще одну модель классификации по этим кропам;
добавить её в общий видеоаналитический пайплайн.

На базе таких цепочек можно решать задачи:

контроль пустых полок в ритейле;
оценка качества урожая;
поиск дефектов на производстве;
контроль состояния дорожного покрытия;
анализ СИЗ (перчатки, каски и т.п.).

Архитектура Luna Line

В основе платформы — открытый фреймворк ClearML, на котором строится управление экспериментами, очередями задач и логированием. Для сервинга обученных моделей используется NVIDIA Triton Inference Server.

Схема работы (по описанию в статье и рисунку 1):

фронтенд для загрузки и разметки данных, выбора задачи и запуска обучения;
бекенд, который:
- формирует конфигурации обучения;
- запускает тренировки через ClearML;
- отслеживает прогресс и собирает метрики;
хранилище данных и артефактов (датасеты, веса моделей, логи);
Triton, через который пользователи получают API‑доступ к обученным моделям.

Эксперименты по классификации

Команда исследовала, можно ли сделать «одну кнопку обучения» для самых разных доменов. Для этого они:

Собрали 28 датасетов под задачу классификации:
- товары;
- дефекты металла;
- болезни листьев;
- типы тканей;
- дорожное покрытие;
- разновидности защитных перчаток и другие.
Для каждого датасета:
- зафиксировали валидационную и тестовую выборки;
- подготовили несколько вложенных обучающих сабсетов: 50, 100, 500, 1000, 5000, 10 000 изображений.
Настроили инфраструктуру, чтобы:
- запускать много экспериментов параллельно через ClearML;
- не выходить за лимит 10 ГБ видеопамяти на обучение;
- честно сравнивать разные конфигурации обучения на одинаковых разбиениях данных.

Целевая метрика экспериментов — не только средняя точность, но и разброс качества между доменами. Авторам нужен такой рецепт обучения, при котором:

средняя точность по всем 28 датасетам как можно выше;
разброс метрик по разным доменам как можно меньше.

То есть не «выжать максимум из одного конкретного датасета», а сделать устойчивый рецепт для самых разных задач пользователя.

Гипотеза по архитектурам и эпохам

Для классификации команда сформулировала гипотезу (см. рисунок 2 в оригинале):

можно подобрать семейство архитектур, которое хорошо работает на разных доменах;
внутри этого семейства найти оптимальную конфигурацию обучения для base‑модели с учётом размера выборки;
для small и large взять те же архитектурные принципы и масштабировать число эпох в зависимости от размера модели и объема данных.

То есть вместо ручного подбора гиперпараметров под каждый датасет Luna Line стремится к одной таблице рецептов вида:

если у пользователя 50 картинок — использовать конфигурацию A;
если 500 — конфигурацию B;
если 10 000 — конфигурацию C;

и внутри каждой конфигурации автоматически решать, сколько эпох учить small/base/large, чтобы уложиться в 10 ГБ и выдать приемлемое качество.

Что это значит для вас

Когда Luna Line полезна

Платформа особенно интересна, если вы:

работаете в предметной области без сильной ML‑команды: агробизнес, промышленность, ритейл, логистика;
хотите решить задачу компьютерного зрения (классификация, детекция, сегментация) на маленьком датасете — от 50 изображений;
не готовы сами подбирать архитектуры, learning rate, аугментации и другие гиперпараметры;
ограничены в ресурсах и не можете держать ферму с десятком GPU — Luna Line ориентируется на до 10 ГБ видеопамяти на обучение;
планируете строить цепочки из нескольких моделей: детектор → трекер → классификатор и т.д.

Для бизнеса это означает:

меньше времени на запуск пилота: достаточно собрать и разметить десятки–сотни картинок;
меньше рисков ошибиться с настройками — пользователь управляет только размером модели;
возможность «пощупать» компьютерное зрение без найма отдельной команды ML‑инженеров.

Где Luna Line может не подойти

Luna Line — не серебряная пуля для любых задач компьютерного зрения.

Платформа может быть не лучшим выбором, если:

у вас огромные датасеты (сотни тысяч и миллионы изображений) и своя ML‑команда. В этом случае может быть выгоднее строить кастомный пайплайн с ручной оптимизацией.
вы хотите тонко управлять архитектурой и гиперпараметрами: выбор оптимизатора, сложные схемы обучения, кастомные лоссы. Luna Line как раз прячет это за «одной кнопкой».
нужны нестандартные задачи за рамками базовых: сложные мультимодальные модели, специфические метрики, экзотические типы разметки.

Доступность

В статье не обсуждаются ограничения по странам, необходимости VPN или блокировках. Luna Line позиционируется как платформа, которую клиенты могут развернуть у себя в контуре на доступном железе. Это важно для компаний, которые не могут выносить данные в публичное облако из‑за регуляторики или политики безопасности.

Если вы работаете в России и вам важна on‑premise‑инфраструктура, продукт явно рассчитан на такой сценарий: команда прямо говорит, что хочет экономить ресурсы клиентов и укладываться в ограниченные GPU.

Место на рынке

Luna Line конкурирует не с GPT‑подобными моделями, а с экосистемой инструментов для компьютерного зрения и MLOps.

По ключевым параметрам из статьи:

Целевая аудитория:
- Luna Line — пользователи без глубоких ML‑навыков, которым важно быстро собрать рабочий пайплайн CV.
- Классические фреймворки (PyTorch, TensorFlow + Detectron/YOLO и т.п.) — инструменты для ML‑инженеров.
Порог входа по данным:
- Luna Line ориентируется на 50–10 000 изображений и активно оптимизирует обучение под малые выборки.
- Большинство open‑source решений ожидают, что инженер сам подберет стратегию для small data или увеличит датасет.
Контроль над гиперпараметрами:
- Luna Line скрывает большую часть настроек и даёт только выбор размера модели.
- В классических инструментах инженер управляет всем сам, что даёт больше свободы, но требует экспертизы.
Инфраструктура:
- Luna Line строится поверх ClearML и Triton, то есть это уже собранный стек для экспериментов и продакшн‑сервинга.
- Альтернатива — собирать аналогичный стек из отдельных компонентов, интегрируя их вручную.

Чётких сравнительных бенчмарков с другими платформами (по скорости обучения, качеству моделей или стоимости владения) в материале нет. Фокус автора — на внутренней методологии VisionLabs: как они искали единую стратегию обучения классификаторов для разных доменов и малых датасетов.

Что дальше

Эта часть материала посвящена только классификации. VisionLabs отдельно обещает рассказать, как они искали универсальный рецепт для сегментации — там другая методология экспериментов и другие сложности.

Если вы думаете о запуске компьютерного зрения в компании и у вас мало данных, за развитием Luna Line есть смысл следить: команда системно подходит к тому, чтобы спрятать сложность обучения моделей за одной кнопкой, не жертвуя стабильностью качества на разных доменах.