Дата публикации
ai_products

Luna Line: как VisionLabs учит модели классификации на 50 картинках без настроек

Что нового

VisionLabs (MWS AI) рассказала, как устроено обучение моделей классификации в их no-code‑платформе компьютерного зрения Luna Line. Главная цель — дать пользователю «идеально обученную» модель под свою задачу даже при минимальном количестве данных.

Ключевые факты:

  • Порог входа по данным: от 50 изображений в обучающей выборке.
  • Платформа поддерживает четыре типа задач: классификация, детекция, сегментация, поиск по текстовому запросу.
  • Пользователь выбирает только размер модели: Small / Base / Large. Все остальные гиперпараметры система подбирает сама.
  • Ограничение по ресурсам на обучение: до 10 ГБ видеопамяти на модель.
  • Для поиска оптимной стратегии обучения классификаторов команда собрала 28 датасетов:
    • примерно половина — открытые;
    • примерно половина — внутренние датасеты VisionLabs.
  • Для каждого датасета подготовили вложенные обучающие сабсеты: 50, 100, 500, 1000, 5000 и 10 000 изображений.
  • Для каждого датасета зафиксированы валидационная и тестовая выборки, чтобы честно сравнивать разные конфигурации обучения.
  • Цель экспериментов — найти «в среднем оптимную» конфигурацию обучения классификатора, которая:
    • зависит только от размера выборки;
    • слабо зависит от домена (товары, металл, листья, дороги и т.д.);
    • укладывается в лимит по памяти и времени.

Отдельно команда выдвинула гипотезу по масштабированию:

  • подобрать оптимальную архитектуру и конфигурацию обучения для base‑модели;
  • использовать то же семейство архитектур для small / large;
  • для small/large масштабировать число эпох обучения относительно base, не трогая остальные настройки.

Как это работает

Продуктовый сценарий

Luna Line — это платформа, где пользователь без навыков программирования строит пайплайны компьютерного зрения.

Типичный сценарий выглядит так:

  1. Пользователь выбирает задачу: классификация, детекция, сегментация или текстовый запрос.
  2. Загружает свой датасет под выбранную задачу.
  3. Размечает данные прямо в интерфейсе.
  4. Нажимает кнопку «Обучить модель».
  5. Смотрит финальные метрики.
  6. Если качество устраивает — создает API‑модель и получает endpoint для инференса.

Дополнительно можно собирать сложные пайплайны из нескольких нейросетей. Пример из статьи:

  • обучить детектор, который находит, например, свиней на ферме;
  • добавить к нему трекер и отслеживать перемещение животных на видео;
  • по результатам трекинга автоматически нарезать кропы свиней;
  • разметить эти кропы по дополнительным признакам (например, по цвету);
  • обучить еще одну модель классификации по этим кропам;
  • добавить её в общий видеоаналитический пайплайн.

На базе таких цепочек можно решать задачи:

  • контроль пустых полок в ритейле;
  • оценка качества урожая;
  • поиск дефектов на производстве;
  • контроль состояния дорожного покрытия;
  • анализ СИЗ (перчатки, каски и т.п.).

Архитектура Luna Line

В основе платформы — открытый фреймворк ClearML, на котором строится управление экспериментами, очередями задач и логированием. Для сервинга обученных моделей используется NVIDIA Triton Inference Server.

Схема работы (по описанию в статье и рисунку 1):

  • фронтенд для загрузки и разметки данных, выбора задачи и запуска обучения;
  • бекенд, который:
    • формирует конфигурации обучения;
    • запускает тренировки через ClearML;
    • отслеживает прогресс и собирает метрики;
  • хранилище данных и артефактов (датасеты, веса моделей, логи);
  • Triton, через который пользователи получают API‑доступ к обученным моделям.

Эксперименты по классификации

Команда исследовала, можно ли сделать «одну кнопку обучения» для самых разных доменов. Для этого они:

  1. Собрали 28 датасетов под задачу классификации:
    • товары;
    • дефекты металла;
    • болезни листьев;
    • типы тканей;
    • дорожное покрытие;
    • разновидности защитных перчаток и другие.
  2. Для каждого датасета:
    • зафиксировали валидационную и тестовую выборки;
    • подготовили несколько вложенных обучающих сабсетов: 50, 100, 500, 1000, 5000, 10 000 изображений.
  3. Настроили инфраструктуру, чтобы:
    • запускать много экспериментов параллельно через ClearML;
    • не выходить за лимит 10 ГБ видеопамяти на обучение;
    • честно сравнивать разные конфигурации обучения на одинаковых разбиениях данных.

Целевая метрика экспериментов — не только средняя точность, но и разброс качества между доменами. Авторам нужен такой рецепт обучения, при котором:

  • средняя точность по всем 28 датасетам как можно выше;
  • разброс метрик по разным доменам как можно меньше.

То есть не «выжать максимум из одного конкретного датасета», а сделать устойчивый рецепт для самых разных задач пользователя.

Гипотеза по архитектурам и эпохам

Для классификации команда сформулировала гипотезу (см. рисунок 2 в оригинале):

  • можно подобрать семейство архитектур, которое хорошо работает на разных доменах;
  • внутри этого семейства найти оптимальную конфигурацию обучения для base‑модели с учётом размера выборки;
  • для small и large взять те же архитектурные принципы и масштабировать число эпох в зависимости от размера модели и объема данных.

То есть вместо ручного подбора гиперпараметров под каждый датасет Luna Line стремится к одной таблице рецептов вида:

  • если у пользователя 50 картинок — использовать конфигурацию A;
  • если 500 — конфигурацию B;
  • если 10 000 — конфигурацию C;

и внутри каждой конфигурации автоматически решать, сколько эпох учить small/base/large, чтобы уложиться в 10 ГБ и выдать приемлемое качество.

Что это значит для вас

Когда Luna Line полезна

Платформа особенно интересна, если вы:

  • работаете в предметной области без сильной ML‑команды: агробизнес, промышленность, ритейл, логистика;
  • хотите решить задачу компьютерного зрения (классификация, детекция, сегментация) на маленьком датасете — от 50 изображений;
  • не готовы сами подбирать архитектуры, learning rate, аугментации и другие гиперпараметры;
  • ограничены в ресурсах и не можете держать ферму с десятком GPU — Luna Line ориентируется на до 10 ГБ видеопамяти на обучение;
  • планируете строить цепочки из нескольких моделей: детектор → трекер → классификатор и т.д.

Для бизнеса это означает:

  • меньше времени на запуск пилота: достаточно собрать и разметить десятки–сотни картинок;
  • меньше рисков ошибиться с настройками — пользователь управляет только размером модели;
  • возможность «пощупать» компьютерное зрение без найма отдельной команды ML‑инженеров.

Где Luna Line может не подойти

Luna Line — не серебряная пуля для любых задач компьютерного зрения.

Платформа может быть не лучшим выбором, если:

  • у вас огромные датасеты (сотни тысяч и миллионы изображений) и своя ML‑команда. В этом случае может быть выгоднее строить кастомный пайплайн с ручной оптимизацией.
  • вы хотите тонко управлять архитектурой и гиперпараметрами: выбор оптимизатора, сложные схемы обучения, кастомные лоссы. Luna Line как раз прячет это за «одной кнопкой».
  • нужны нестандартные задачи за рамками базовых: сложные мультимодальные модели, специфические метрики, экзотические типы разметки.

Доступность

В статье не обсуждаются ограничения по странам, необходимости VPN или блокировках. Luna Line позиционируется как платформа, которую клиенты могут развернуть у себя в контуре на доступном железе. Это важно для компаний, которые не могут выносить данные в публичное облако из‑за регуляторики или политики безопасности.

Если вы работаете в России и вам важна on‑premise‑инфраструктура, продукт явно рассчитан на такой сценарий: команда прямо говорит, что хочет экономить ресурсы клиентов и укладываться в ограниченные GPU.

Место на рынке

Luna Line конкурирует не с GPT‑подобными моделями, а с экосистемой инструментов для компьютерного зрения и MLOps.

По ключевым параметрам из статьи:

  • Целевая аудитория:
    • Luna Line — пользователи без глубоких ML‑навыков, которым важно быстро собрать рабочий пайплайн CV.
    • Классические фреймворки (PyTorch, TensorFlow + Detectron/YOLO и т.п.) — инструменты для ML‑инженеров.
  • Порог входа по данным:
    • Luna Line ориентируется на 50–10 000 изображений и активно оптимизирует обучение под малые выборки.
    • Большинство open‑source решений ожидают, что инженер сам подберет стратегию для small data или увеличит датасет.
  • Контроль над гиперпараметрами:
    • Luna Line скрывает большую часть настроек и даёт только выбор размера модели.
    • В классических инструментах инженер управляет всем сам, что даёт больше свободы, но требует экспертизы.
  • Инфраструктура:
    • Luna Line строится поверх ClearML и Triton, то есть это уже собранный стек для экспериментов и продакшн‑сервинга.
    • Альтернатива — собирать аналогичный стек из отдельных компонентов, интегрируя их вручную.

Чётких сравнительных бенчмарков с другими платформами (по скорости обучения, качеству моделей или стоимости владения) в материале нет. Фокус автора — на внутренней методологии VisionLabs: как они искали единую стратегию обучения классификаторов для разных доменов и малых датасетов.

Что дальше

Эта часть материала посвящена только классификации. VisionLabs отдельно обещает рассказать, как они искали универсальный рецепт для сегментации — там другая методология экспериментов и другие сложности.

Если вы думаете о запуске компьютерного зрения в компании и у вас мало данных, за развитием Luna Line есть смысл следить: команда системно подходит к тому, чтобы спрятать сложность обучения моделей за одной кнопкой, не жертвуя стабильностью качества на разных доменах.


Читайте также