- Дата публикации
Бесплатный локальный сервис для подписи видео под обучение LTX-2.3
Что появилось / что изменилось
Автор из сообщества Stable Diffusion выложил бесплатный локальный инструмент для автоматической подписи видео и картинок, заточенный под обучение LTX-2.3.
Ключевые возможности:
- Принимает на вход видео, отдельные изображения или смешанные папки и обрабатывает всё пакетно.
- Генерирует описания в формате Musubi LoRA: один абзац кинематографического текста на каждый ролик или кадр.
- Есть система «focus injection» — можно заранее задать, на что делать акцент в описании: ткань, движение, лицо, тело и т.п.
- Отдельная вкладка Test: позволяет прогнать подпись для одного видео или изображения, прежде чем запускать большой батч.
- Работа полностью локальная: без API-ключей, без оплаты за подпись, после первой загрузки модели всё работает офлайн.
- Под капотом — Gliese-Qwen3.5-9B (abliterated). Автор позиционирует её как лучший открытый VLM для такой задачи.
- Запускается на видеокартах NVIDIA RTX 3000‑й серии и новее. Для карт с меньшим объёмом видеопамяти есть автоматический offload части вычислений на CPU.
- Поддерживает RTX 5090 и архитектуру Blackwell «из коробки».
- Есть расширенные режимы для NSFW‑контента с точной анатомической лексикой и правилами описания полупрозрачных тканей и движений.
- Бесплатное распространение, открытый доступ, интерфейс на Gradio.
- Установка через INSTALL.bat в один клик: скрипт подтягивает PyTorch и все зависимости. Запуск через START.bat.
Как это работает
Инструмент разворачивается локально и поднимает Gradio‑интерфейс в браузере. Пользователь выбирает папку с видео и/или изображениями, настраивает параметры фокуса и запускает пакетную обработку.
За генерацию описаний отвечает визуально‑языковая модель Gliese-Qwen3.5-9B (abliterated). Она принимает кадр или последовательность кадров, извлекает визуальные признаки и превращает их в связный текстовый абзац. Формат заточен под Musubi LoRA, поэтому подписи сразу готовы для загрузки в пайплайны обучения LTX-2.3.
Система «focus injection» реализована через системный промпт: в него заранее зашиты инструкции, как описывать ткань, движения, тело, лицо, одежду и другие аспекты. Для NSFW‑режима в промпте прописан расширенный словарь, правила различения «обнажённого» и «видимого через прозрачную ткань», последовательности снятия одежды и детальное описание движений.
Если видеопамяти не хватает, часть вычислений автоматически переезжает на CPU. Это замедляет обработку, но позволяет работать на более скромных картах, начиная с RTX 3000‑й серии.
Что это значит для вас
Кому это нужно в первую очередь:
- Тем, кто тренирует или дообучает LTX-2.3 и другие видео‑диффузионные модели. Инструмент создаёт подписи такой детализации, чтобы по ним можно было восстановить исходный ролик. Если модель по описанию уверенно воссоздаёт видео, этих данных обычно достаточно для обучения.
- Авторам LoRA и кастомных чекпоинтов: формат Musubi LoRA позволяет сразу включать сгенерированные подписи в существующие пайплайны без ручной правки.
- Студиям и фрилансерам, которые не могут отправлять чувствительный или NSFW‑контент в облако. Всё работает локально, без передачи данных на внешние серверы.
Где инструмент особенно полезен:
- Массовая разметка больших архивов видео под обучение LTX-2.3.
- Подготовка датасетов с акцентом на конкретные аспекты: пластика движения, поведение ткани, выражения лица, работа камеры.
- Создание обучающих наборов с чётким разграничением «обнажённого» и «через полупрозрачную ткань», когда это критично для качества генераций.
Где он может не подойти:
- Если вы не работаете с LTX-2.3, LoRA или обучением генеративных моделей, ценность инструмента сильно падает. Для обычных субтитров или описаний для соцсетей он избыточен.
- Если у вас нет дискретной видеокарты уровня RTX 3000 и выше, запуск будет проблемой или потребует серьёзных компромиссов по скорости.
- Тем, кто не готов развернуть локальное окружение с PyTorch и зависимостями, даже при наличии скрипта INSTALL.bat.
Если вы работаете из России, инструмент можно использовать без VPN: это локальный софт, а не облачный сервис. Важно только иметь возможность скачать модель и зависимости один раз.
Место на рынке
Инструмент конкурирует не с чат‑ботами вроде GPT-4o или Claude 3.5, а с специализированными пайплайнами разметки видео под обучение генеративных моделей.
Главные отличия от типичных облачных решений:
- Полная локальность: нет платы за запрос, нет ограничения по числу видео, нет рисков утечки датасета в сторонние сервисы.
- Заточка под конкретный кейс — обучение LTX-2.3 и Musubi LoRA, а не универсальная генерация описаний «для всего подряд».
По скорости и качеству описаний автор опирается на Gliese-Qwen3.5-9B (abliterated), которую он считает лучшим открытым VLM под такую задачу. Прямых сравнений с GPT-4o, Claude 3.5 или закрытыми видео‑captioning‑сервисами он не приводит.
Фактически это нишевый инструмент для тех, кто уже вкладывается в собственные датасеты и обучение LTX-2.3. Для широкой аудитории, которая использует готовые модели и облачные сервисы, выгода неочевидна.