Видео‑генерация LTX‑2.3 за 40 секунд: кастомный движок на RTX 5090 обошёл Python — VogueTech

Что появилось / что изменилось

Разработчик из сообщества Stable Diffusion показал свой runtime для видеогенерации на архитектуре LTX, полностью заточенный под LTX‑2.3 и написанный на Rust.

Ключевые цифры:

Время генерации: 10‑секундный ролик — меньше 40 секунд на одной RTX 5090.
Разрешение: 1920×1088.
Частота кадров: 24 fps.
Самплинг: 15 шагов в первом этапе + 3 шага доработки во втором.

Поддерживаемый стек:

Семейство моделей: LTX‑2.3.
Базовый чекпоинт: ltx-2.3-22b-dev.safetensors.
Distilled LoRA: ltx-2.3-22b-distilled-lora-384.safetensors.
Спатиальный апскейлер: ltx-2.3-spatial-upscaler-x2-1.0.safetensors.
Текстовый энкодер: gemma-3-12b-it-qat-q4_0-unquantized.

Сейчас проект закрыт, но автор обещает выложить исходники. Он готовит технический разбор архитектуры и оптимизаций.

Как это работает

Главная идея — выкинуть всё лишнее между моделью и видеокартой.

Движок написан на Rust. Этап denoise уже полностью работает в нативном Rust‑коде.
Горячие участки пайплайна обходят Python. Python остаётся только на «холодных» путях, где производительность не критична.
Граф вычислений для LTX зашит жёстко: разработчик использует конкретные 3D‑attention блоки LTX и не даёт движку строить граф динамически. Это убирает overhead динамической диспетчеризации, который есть у PyTorch.
В Rust реализован собственный 3D‑пул латентов. Он заранее подогнан под формы тензоров LTX, поэтому нет фрагментации VRAM и нет выделения памяти на каждом шаге.
Модели в формате safetensors загружаются в GPU без копирования: zero‑copy, напрямую в память видеокарты.

В сумме это даёт быстрый прогон LTX‑2.3 без универсального, но тяжёлого слоя PyTorch.

Что это значит для вас

Кому это интересно:

Разработчикам, которые делают свои видеогенераторы и упираются в скорость PyTorch.
Тем, кто хочет выжать максимум из топовых GPU вроде RTX 5090 именно под LTX‑2.3.
Исследователям, которые изучают, как жёсткая фиксация графа и ручное управление памятью влияют на производительность.

Что можно делать:

Генерировать 10‑секундные клипы в Full HD примерно за полминуты–40 секунд на одной RTX 5090.
Собирать свои пайплайны вокруг LTX‑2.3: базовый чекпоинт + distilled LoRA + апскейлер ×2.
Экспериментировать с количеством шагов и качеством, зная ориентировочную производительность.

Где это пока не поможет:

Пользователям без мощного железа. Автор тестирует на RTX 5090, на массовых GPU результат будет другим.
Тем, кому нужен готовый GUI‑продукт «из коробки». Сейчас это низкоуровневый runtime, а не удобный сервис.
Тем, кто не готов работать с Rust и кастомной инфраструктурой.

Проект пока не открыт. Чтобы использовать его легально и безопасно, придётся дождаться публикации исходников и технического разбора. Никакой привязки к географии автор не упоминает, так что ограничения здесь связаны только с железом и готовностью разбираться в коде.

Место на рынке

Автор напрямую сравнивает свой подход с PyTorch: PyTorch остаётся универсальным фреймворком, а этот движок жёстко заточен под архитектуру LTX.

Конкретные отличия:

PyTorch строит граф динамически и поддерживает множество архитектур. Здесь граф зашит под LTX‑2.3 и её 3D‑attention блоки.
В PyTorch управление памятью общее и универсальное. В Rust‑движке есть специализированный 3D‑пул латентов под фиксированные формы тензоров.
PyTorch использует Python как основной интерфейс. В этом runtime горячие участки полностью ушли в Rust, Python остался только на периферии.

Чётких сравнительных бенчмарков с другими видеогенераторами разработчик не приводит. Есть одна опорная точка: 10 секунд видео LTX‑2.3 при 24 fps и 1920×1088 за менее чем 40 секунд на RTX 5090. Этого уже достаточно, чтобы понять направление — максимальная оптимизация под одну архитектуру и одну линейку моделей, без универсальности PyTorch, но с заметным выигрышем по скорости на целевом железе.