Дата публикации
ai_products

Бесплатный локальный сервис для подписи видео под обучение LTX-2.3

Что появилось / что изменилось

Автор из сообщества Stable Diffusion выложил бесплатный локальный инструмент для автоматической подписи видео и картинок, заточенный под обучение LTX-2.3.

Ключевые возможности:

  • Принимает на вход видео, отдельные изображения или смешанные папки и обрабатывает всё пакетно.
  • Генерирует описания в формате Musubi LoRA: один абзац кинематографического текста на каждый ролик или кадр.
  • Есть система «focus injection» — можно заранее задать, на что делать акцент в описании: ткань, движение, лицо, тело и т.п.
  • Отдельная вкладка Test: позволяет прогнать подпись для одного видео или изображения, прежде чем запускать большой батч.
  • Работа полностью локальная: без API-ключей, без оплаты за подпись, после первой загрузки модели всё работает офлайн.
  • Под капотом — Gliese-Qwen3.5-9B (abliterated). Автор позиционирует её как лучший открытый VLM для такой задачи.
  • Запускается на видеокартах NVIDIA RTX 3000‑й серии и новее. Для карт с меньшим объёмом видеопамяти есть автоматический offload части вычислений на CPU.
  • Поддерживает RTX 5090 и архитектуру Blackwell «из коробки».
  • Есть расширенные режимы для NSFW‑контента с точной анатомической лексикой и правилами описания полупрозрачных тканей и движений.
  • Бесплатное распространение, открытый доступ, интерфейс на Gradio.
  • Установка через INSTALL.bat в один клик: скрипт подтягивает PyTorch и все зависимости. Запуск через START.bat.

Как это работает

Инструмент разворачивается локально и поднимает Gradio‑интерфейс в браузере. Пользователь выбирает папку с видео и/или изображениями, настраивает параметры фокуса и запускает пакетную обработку.

За генерацию описаний отвечает визуально‑языковая модель Gliese-Qwen3.5-9B (abliterated). Она принимает кадр или последовательность кадров, извлекает визуальные признаки и превращает их в связный текстовый абзац. Формат заточен под Musubi LoRA, поэтому подписи сразу готовы для загрузки в пайплайны обучения LTX-2.3.

Система «focus injection» реализована через системный промпт: в него заранее зашиты инструкции, как описывать ткань, движения, тело, лицо, одежду и другие аспекты. Для NSFW‑режима в промпте прописан расширенный словарь, правила различения «обнажённого» и «видимого через прозрачную ткань», последовательности снятия одежды и детальное описание движений.

Если видеопамяти не хватает, часть вычислений автоматически переезжает на CPU. Это замедляет обработку, но позволяет работать на более скромных картах, начиная с RTX 3000‑й серии.

Что это значит для вас

Кому это нужно в первую очередь:

  • Тем, кто тренирует или дообучает LTX-2.3 и другие видео‑диффузионные модели. Инструмент создаёт подписи такой детализации, чтобы по ним можно было восстановить исходный ролик. Если модель по описанию уверенно воссоздаёт видео, этих данных обычно достаточно для обучения.
  • Авторам LoRA и кастомных чекпоинтов: формат Musubi LoRA позволяет сразу включать сгенерированные подписи в существующие пайплайны без ручной правки.
  • Студиям и фрилансерам, которые не могут отправлять чувствительный или NSFW‑контент в облако. Всё работает локально, без передачи данных на внешние серверы.

Где инструмент особенно полезен:

  • Массовая разметка больших архивов видео под обучение LTX-2.3.
  • Подготовка датасетов с акцентом на конкретные аспекты: пластика движения, поведение ткани, выражения лица, работа камеры.
  • Создание обучающих наборов с чётким разграничением «обнажённого» и «через полупрозрачную ткань», когда это критично для качества генераций.

Где он может не подойти:

  • Если вы не работаете с LTX-2.3, LoRA или обучением генеративных моделей, ценность инструмента сильно падает. Для обычных субтитров или описаний для соцсетей он избыточен.
  • Если у вас нет дискретной видеокарты уровня RTX 3000 и выше, запуск будет проблемой или потребует серьёзных компромиссов по скорости.
  • Тем, кто не готов развернуть локальное окружение с PyTorch и зависимостями, даже при наличии скрипта INSTALL.bat.

Если вы работаете из России, инструмент можно использовать без VPN: это локальный софт, а не облачный сервис. Важно только иметь возможность скачать модель и зависимости один раз.

Место на рынке

Инструмент конкурирует не с чат‑ботами вроде GPT-4o или Claude 3.5, а с специализированными пайплайнами разметки видео под обучение генеративных моделей.

Главные отличия от типичных облачных решений:

  • Полная локальность: нет платы за запрос, нет ограничения по числу видео, нет рисков утечки датасета в сторонние сервисы.
  • Заточка под конкретный кейс — обучение LTX-2.3 и Musubi LoRA, а не универсальная генерация описаний «для всего подряд».

По скорости и качеству описаний автор опирается на Gliese-Qwen3.5-9B (abliterated), которую он считает лучшим открытым VLM под такую задачу. Прямых сравнений с GPT-4o, Claude 3.5 или закрытыми видео‑captioning‑сервисами он не приводит.

Фактически это нишевый инструмент для тех, кто уже вкладывается в собственные датасеты и обучение LTX-2.3. Для широкой аудитории, которая использует готовые модели и облачные сервисы, выгода неочевидна.


Читайте также

Бесплатный локальный сервис для подписи видео под обучение LTX-2.3 — VogueTech | VogueTech