- Дата публикации
Новая волна open-source генерации изображений и видео: LTX‑2.3, Helios, Kiwi‑Edit и другие
Что появилось / что изменилось
За неделю вокруг open‑source генерации картинок и видео произошло сразу несколько заметных запусков.
LTX‑2.3 от Lightricks
- Лучше понимает текстовые запросы, особенно сложные промпты.
- Поддерживает портретный режим по умолчанию с разрешением до 1080×1920.
- На базе LTX‑2.3 сообщество уже сделало:
- LTX Desktop — бесплатный локальный видеоредактор. Устанавливаете и сразу работает.
- LTX Desktop Linux Port — порт того же редактора под Linux.
- LTX‑2.3 Workflows — готовые рабочие процессы (около 12 ГБ в формате GGUF) для i2v, t2v, v2v и других сценариев.
- LTX‑2.3 Prompting Guide — подробное руководство по промптингу именно для этой модели.
Helios от PKU‑YuanGroup
- Видео‑модель на 14B параметров, которая работает в реальном времени на одной GPU.
- Поддерживает text‑to‑video (t2v), image‑to‑video (i2v) и video‑to‑video (v2v).
- Длина ролика — до одной минуты.
Kiwi‑Edit
- Редактор видео по текстовому или визуальному запросу.
- Сохраняет временную согласованность: объекты не «прыгают» между кадрами.
- Умеет менять стиль, удалять объекты и менять фон по запросу.
CubeComposer от TencentARC
- Превращает обычное видео в 4K 360° без видимых швов.
- Качество итогового 360°‑видео заметно выше типичных конвертеров.
HY‑WU от Tencent
- Персонализированное редактирование изображений без дообучения.
- Делает face swap и перенос стиля «на лету», без отдельного fine‑tuning под пользователя.
Spectrum
- Ускоряет диффузионные модели в 3–5 раз.
- Использует предсказание шага через полиномы Чебышёва.
- Не требует переобучения модели: подключается в существующие пайплайны для картинок и видео.
Все проекты доступны через HuggingFace, GitHub или демо‑страницы. Для части хостингов и демо может понадобиться VPN.
Как это работает
LTX‑2.3 Lightricks доработала архитектуру генерации так, чтобы модель точнее следовала тексту и лучше работала в вертикальном формате. Портретный режим 1080×1920 оптимизирован под мобильное потребление: TikTok, Reels, Shorts. Сообщество обернуло базовую модель в десктопный интерфейс (LTX Desktop), порты под Linux и готовые GGUF‑воркфлоу, чтобы запускать генерацию локально без постоянного доступа к облаку.
Helios (14B) Модель с 14 млрд параметров обучили на мультимодальных данных и оптимизировали под запуск на одной GPU. За счёт компактного размера и инженерии инференса Helios успевает генерировать видео в реальном времени, поддерживая три режима: из текста, из картинки и из уже существующего видео.
Kiwi‑Edit Редактор использует текстовые и визуальные подсказки как условия для генерации последовательности кадров. Чтобы видео не «дрожало», Kiwi‑Edit учитывает временную структуру: изменения распространяются по кадрам согласованно, а не по одному.
CubeComposer Инструмент анализирует исходное плоское видео и пересобирает его в панораму формата 360°, затем апскейлит до 4K. Отдельные фрагменты стыкуются в сферическую проекцию так, чтобы не было швов и разрывов между секторами.
HY‑WU Модель использует уже обученное пространство лиц и стилей и подмешивает новые данные «на лету». За счёт этого можно менять лицо или стиль на конкретном изображении без отдельного обучения под пользователя.
Spectrum В классических диффузионных моделях каждый шаг — это отдельный прогон сети. Spectrum аппроксимирует последовательность шагов с помощью полиномов Чебышёва и предсказывает, как система будет эволюционировать дальше. Это снижает число итераций и ускоряет инференс в 3–5 раз, не меняя веса модели.
Что это значит для вас
Креаторы и SMM‑специалисты
- LTX‑2.3 и Helios закрывают быстрый продакшн вертикального видео до минуты для TikTok/Shorts/Reels.
- LTX Desktop подойдёт, если вы хотите генерировать и править видео локально, без загрузки сырья в облако.
- Kiwi‑Edit полезен, когда нужно точечно править видео: убрать объект, поменять фон, сделать стильный ре‑кад.
Режиссёры, XR и ивенты
- CubeComposer — вариант для 4K 360° контента под VR‑инсталляции и ивенты, когда нет бюджета на нативный 360° продакшн.
- HY‑WU поможет быстро примерять разные лица и стили в раскадровках и концепт‑арте.
Художники и иллюстраторы
- HY‑WU удобен для экспресс‑экспериментов со стилями без отдельного обучения под каждого клиента.
- Spectrum имеет смысл, если вы уже используете диффузионные пайплайны и упираетесь в скорость рендеринга.
ML‑инженеры и стартапы
- Spectrum даёт прямой выигрыш по скорости без пересборки моделей — можно ускорить существующие сервисы изображений и видео.
- Helios интересен как база для real‑time приложений: стриминговые аватары, интерактивные видео‑чат‑боты, генерация превью «на лету».
Где быть осторожнее:
- Face swap (HY‑WU) и генерация видео (LTX‑2.3, Helios) требуют аккуратного отношения к авторским правам и согласиям на использование лиц.
- Для доступа к HuggingFace, GitHub и отдельным демо‑серверам многим пользователям в России понадобится VPN.
Место на рынке
LTX‑2.3 и экосистема вокруг него LTX‑2.3 сейчас выглядит как один из самых быстро обрастающих сообществом видеогенераторов: за несколько дней появились локальный редактор, Linux‑порт, готовые GGUF‑воркфлоу и отдельный гайд по промптам. Это делает модель удобной именно для практического использования, а не только для демо.
Helios (14B) Helios интересен сочетанием 14B параметров и работы в реальном времени на одной GPU. Для задач, где важна скорость, это даёт преимущество перед более тяжёлыми видео‑моделями, которые требуют нескольких GPU и не тянут интерактив.
Kiwi‑Edit, CubeComposer, HY‑WU Эти инструменты занимают нишу точечного редактирования и спецэффектов:
- Kiwi‑Edit — про управляемый монтаж по тексту и картинкам.
- CubeComposer — про конвертацию в 4K 360°.
- HY‑WU — про персонализацию без обучения.
Spectrum Spectrum важен не как отдельный продукт, а как ускоритель для уже существующих диффузионных пайплайнов. Ускорение в 3–5 раз без переобучения делает его привлекательным для команд, которые уже вложились в свои модели и не готовы их менять.
В сумме это не один «суперпродукт», а набор кирпичей, из которых можно собрать собственный стек для генерации и редактирования изображений и видео — от TikTok‑роликов до VR‑инсталляций.