Дата публикации
ai_products

Новая волна open-source генерации изображений и видео: LTX‑2.3, Helios, Kiwi‑Edit и другие

Что появилось / что изменилось

За неделю вокруг open‑source генерации картинок и видео произошло сразу несколько заметных запусков.

LTX‑2.3 от Lightricks

  • Лучше понимает текстовые запросы, особенно сложные промпты.
  • Поддерживает портретный режим по умолчанию с разрешением до 1080×1920.
  • На базе LTX‑2.3 сообщество уже сделало:
    • LTX Desktop — бесплатный локальный видеоредактор. Устанавливаете и сразу работает.
    • LTX Desktop Linux Port — порт того же редактора под Linux.
    • LTX‑2.3 Workflows — готовые рабочие процессы (около 12 ГБ в формате GGUF) для i2v, t2v, v2v и других сценариев.
    • LTX‑2.3 Prompting Guide — подробное руководство по промптингу именно для этой модели.

Helios от PKU‑YuanGroup

  • Видео‑модель на 14B параметров, которая работает в реальном времени на одной GPU.
  • Поддерживает text‑to‑video (t2v), image‑to‑video (i2v) и video‑to‑video (v2v).
  • Длина ролика — до одной минуты.

Kiwi‑Edit

  • Редактор видео по текстовому или визуальному запросу.
  • Сохраняет временную согласованность: объекты не «прыгают» между кадрами.
  • Умеет менять стиль, удалять объекты и менять фон по запросу.

CubeComposer от TencentARC

  • Превращает обычное видео в 4K 360° без видимых швов.
  • Качество итогового 360°‑видео заметно выше типичных конвертеров.

HY‑WU от Tencent

  • Персонализированное редактирование изображений без дообучения.
  • Делает face swap и перенос стиля «на лету», без отдельного fine‑tuning под пользователя.

Spectrum

  • Ускоряет диффузионные модели в 3–5 раз.
  • Использует предсказание шага через полиномы Чебышёва.
  • Не требует переобучения модели: подключается в существующие пайплайны для картинок и видео.

Все проекты доступны через HuggingFace, GitHub или демо‑страницы. Для части хостингов и демо может понадобиться VPN.

Как это работает

LTX‑2.3 Lightricks доработала архитектуру генерации так, чтобы модель точнее следовала тексту и лучше работала в вертикальном формате. Портретный режим 1080×1920 оптимизирован под мобильное потребление: TikTok, Reels, Shorts. Сообщество обернуло базовую модель в десктопный интерфейс (LTX Desktop), порты под Linux и готовые GGUF‑воркфлоу, чтобы запускать генерацию локально без постоянного доступа к облаку.

Helios (14B) Модель с 14 млрд параметров обучили на мультимодальных данных и оптимизировали под запуск на одной GPU. За счёт компактного размера и инженерии инференса Helios успевает генерировать видео в реальном времени, поддерживая три режима: из текста, из картинки и из уже существующего видео.

Kiwi‑Edit Редактор использует текстовые и визуальные подсказки как условия для генерации последовательности кадров. Чтобы видео не «дрожало», Kiwi‑Edit учитывает временную структуру: изменения распространяются по кадрам согласованно, а не по одному.

CubeComposer Инструмент анализирует исходное плоское видео и пересобирает его в панораму формата 360°, затем апскейлит до 4K. Отдельные фрагменты стыкуются в сферическую проекцию так, чтобы не было швов и разрывов между секторами.

HY‑WU Модель использует уже обученное пространство лиц и стилей и подмешивает новые данные «на лету». За счёт этого можно менять лицо или стиль на конкретном изображении без отдельного обучения под пользователя.

Spectrum В классических диффузионных моделях каждый шаг — это отдельный прогон сети. Spectrum аппроксимирует последовательность шагов с помощью полиномов Чебышёва и предсказывает, как система будет эволюционировать дальше. Это снижает число итераций и ускоряет инференс в 3–5 раз, не меняя веса модели.

Что это значит для вас

Креаторы и SMM‑специалисты

  • LTX‑2.3 и Helios закрывают быстрый продакшн вертикального видео до минуты для TikTok/Shorts/Reels.
  • LTX Desktop подойдёт, если вы хотите генерировать и править видео локально, без загрузки сырья в облако.
  • Kiwi‑Edit полезен, когда нужно точечно править видео: убрать объект, поменять фон, сделать стильный ре‑кад.

Режиссёры, XR и ивенты

  • CubeComposer — вариант для 4K 360° контента под VR‑инсталляции и ивенты, когда нет бюджета на нативный 360° продакшн.
  • HY‑WU поможет быстро примерять разные лица и стили в раскадровках и концепт‑арте.

Художники и иллюстраторы

  • HY‑WU удобен для экспресс‑экспериментов со стилями без отдельного обучения под каждого клиента.
  • Spectrum имеет смысл, если вы уже используете диффузионные пайплайны и упираетесь в скорость рендеринга.

ML‑инженеры и стартапы

  • Spectrum даёт прямой выигрыш по скорости без пересборки моделей — можно ускорить существующие сервисы изображений и видео.
  • Helios интересен как база для real‑time приложений: стриминговые аватары, интерактивные видео‑чат‑боты, генерация превью «на лету».

Где быть осторожнее:

  • Face swap (HY‑WU) и генерация видео (LTX‑2.3, Helios) требуют аккуратного отношения к авторским правам и согласиям на использование лиц.
  • Для доступа к HuggingFace, GitHub и отдельным демо‑серверам многим пользователям в России понадобится VPN.

Место на рынке

LTX‑2.3 и экосистема вокруг него LTX‑2.3 сейчас выглядит как один из самых быстро обрастающих сообществом видеогенераторов: за несколько дней появились локальный редактор, Linux‑порт, готовые GGUF‑воркфлоу и отдельный гайд по промптам. Это делает модель удобной именно для практического использования, а не только для демо.

Helios (14B) Helios интересен сочетанием 14B параметров и работы в реальном времени на одной GPU. Для задач, где важна скорость, это даёт преимущество перед более тяжёлыми видео‑моделями, которые требуют нескольких GPU и не тянут интерактив.

Kiwi‑Edit, CubeComposer, HY‑WU Эти инструменты занимают нишу точечного редактирования и спецэффектов:

  • Kiwi‑Edit — про управляемый монтаж по тексту и картинкам.
  • CubeComposer — про конвертацию в 4K 360°.
  • HY‑WU — про персонализацию без обучения.

Spectrum Spectrum важен не как отдельный продукт, а как ускоритель для уже существующих диффузионных пайплайнов. Ускорение в 3–5 раз без переобучения делает его привлекательным для команд, которые уже вложились в свои модели и не готовы их менять.

В сумме это не один «суперпродукт», а набор кирпичей, из которых можно собрать собственный стек для генерации и редактирования изображений и видео — от TikTok‑роликов до VR‑инсталляций.


Читайте также

Новая волна open-source генерации изображений и видео: LTX‑2.3, Helios, Kiwi‑Edit и другие — VogueTech | VogueTech