Бесплатный локальный сервис для подписи видео под обучение LTX-2.3 — VogueTech

Что появилось / что изменилось

Автор из сообщества Stable Diffusion выложил бесплатный локальный инструмент для автоматической подписи видео и картинок, заточенный под обучение LTX-2.3.

Ключевые возможности:

Принимает на вход видео, отдельные изображения или смешанные папки и обрабатывает всё пакетно.
Генерирует описания в формате Musubi LoRA: один абзац кинематографического текста на каждый ролик или кадр.
Есть система «focus injection» — можно заранее задать, на что делать акцент в описании: ткань, движение, лицо, тело и т.п.
Отдельная вкладка Test: позволяет прогнать подпись для одного видео или изображения, прежде чем запускать большой батч.
Работа полностью локальная: без API-ключей, без оплаты за подпись, после первой загрузки модели всё работает офлайн.
Под капотом — Gliese-Qwen3.5-9B (abliterated). Автор позиционирует её как лучший открытый VLM для такой задачи.
Запускается на видеокартах NVIDIA RTX 3000‑й серии и новее. Для карт с меньшим объёмом видеопамяти есть автоматический offload части вычислений на CPU.
Поддерживает RTX 5090 и архитектуру Blackwell «из коробки».
Есть расширенные режимы для NSFW‑контента с точной анатомической лексикой и правилами описания полупрозрачных тканей и движений.
Бесплатное распространение, открытый доступ, интерфейс на Gradio.
Установка через INSTALL.bat в один клик: скрипт подтягивает PyTorch и все зависимости. Запуск через START.bat.

Как это работает

Инструмент разворачивается локально и поднимает Gradio‑интерфейс в браузере. Пользователь выбирает папку с видео и/или изображениями, настраивает параметры фокуса и запускает пакетную обработку.

За генерацию описаний отвечает визуально‑языковая модель Gliese-Qwen3.5-9B (abliterated). Она принимает кадр или последовательность кадров, извлекает визуальные признаки и превращает их в связный текстовый абзац. Формат заточен под Musubi LoRA, поэтому подписи сразу готовы для загрузки в пайплайны обучения LTX-2.3.

Система «focus injection» реализована через системный промпт: в него заранее зашиты инструкции, как описывать ткань, движения, тело, лицо, одежду и другие аспекты. Для NSFW‑режима в промпте прописан расширенный словарь, правила различения «обнажённого» и «видимого через прозрачную ткань», последовательности снятия одежды и детальное описание движений.

Если видеопамяти не хватает, часть вычислений автоматически переезжает на CPU. Это замедляет обработку, но позволяет работать на более скромных картах, начиная с RTX 3000‑й серии.

Что это значит для вас

Кому это нужно в первую очередь:

Тем, кто тренирует или дообучает LTX-2.3 и другие видео‑диффузионные модели. Инструмент создаёт подписи такой детализации, чтобы по ним можно было восстановить исходный ролик. Если модель по описанию уверенно воссоздаёт видео, этих данных обычно достаточно для обучения.
Авторам LoRA и кастомных чекпоинтов: формат Musubi LoRA позволяет сразу включать сгенерированные подписи в существующие пайплайны без ручной правки.
Студиям и фрилансерам, которые не могут отправлять чувствительный или NSFW‑контент в облако. Всё работает локально, без передачи данных на внешние серверы.

Где инструмент особенно полезен:

Массовая разметка больших архивов видео под обучение LTX-2.3.
Подготовка датасетов с акцентом на конкретные аспекты: пластика движения, поведение ткани, выражения лица, работа камеры.
Создание обучающих наборов с чётким разграничением «обнажённого» и «через полупрозрачную ткань», когда это критично для качества генераций.

Где он может не подойти:

Если вы не работаете с LTX-2.3, LoRA или обучением генеративных моделей, ценность инструмента сильно падает. Для обычных субтитров или описаний для соцсетей он избыточен.
Если у вас нет дискретной видеокарты уровня RTX 3000 и выше, запуск будет проблемой или потребует серьёзных компромиссов по скорости.
Тем, кто не готов развернуть локальное окружение с PyTorch и зависимостями, даже при наличии скрипта INSTALL.bat.

Если вы работаете из России, инструмент можно использовать без VPN: это локальный софт, а не облачный сервис. Важно только иметь возможность скачать модель и зависимости один раз.

Место на рынке

Инструмент конкурирует не с чат‑ботами вроде GPT-4o или Claude 3.5, а с специализированными пайплайнами разметки видео под обучение генеративных моделей.

Главные отличия от типичных облачных решений:

Полная локальность: нет платы за запрос, нет ограничения по числу видео, нет рисков утечки датасета в сторонние сервисы.
Заточка под конкретный кейс — обучение LTX-2.3 и Musubi LoRA, а не универсальная генерация описаний «для всего подряд».

По скорости и качеству описаний автор опирается на Gliese-Qwen3.5-9B (abliterated), которую он считает лучшим открытым VLM под такую задачу. Прямых сравнений с GPT-4o, Claude 3.5 или закрытыми видео‑captioning‑сервисами он не приводит.

Фактически это нишевый инструмент для тех, кто уже вкладывается в собственные датасеты и обучение LTX-2.3. Для широкой аудитории, которая использует готовые модели и облачные сервисы, выгода неочевидна.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также