Stable Audio 3: генерация музыки и звуков за пару секунд на обычном ноутбуке — VogueTech

Что нового

Stable Audio 3 — новое семейство генеративных аудиомоделей от Stability AI. Авторы описывают сразу три варианта: small, medium и large. Главное: все они работают как быстрые латентные диффузионные модели и умеют генерировать звук переменной длины.

Ключевые изменения по сравнению с прошлым поколением:

Переменная длина аудио. Модель не обязана рендерить целый трек, если нужен короткий звук. Это экономит время и вычисления, особенно при работе с короткими эффектами.
Инпейтинг и продолжение записи. Stable Audio 3 может «дорисовать» фрагмент внутри уже существующего аудио или продолжить короткую запись дальше по таймлайну.
Новый семантико-акустический автоэнкодер. Аудио сначала сжимается в компактное латентное представление, которое сохраняет качество и структуру, а уже в нём работает диффузия.
Адверсариальное пост-обучение. Поверх диффузионной модели авторы запускают дополнительное обучение с использованием дискриминатора. Это уменьшает число шагов инференса и повышает качество звука и соответствие текстовому запросу.
Производительность. Генерация музыки и звуков занимает менее 2 секунд на GPU NVIDIA H200 и менее нескольких секунд на MacBook Pro с чипом M4.
Лицензия датасета. Модели тренировали на лицензированных и Creative Commons данных, а не на «чём нашли в интернете».
Открытый доступ к весам и пайплайну. Авторы публикуют веса версий small и medium, которые можно запускать на потребительском железе, а также код обучения и инференса.

Версия large описана в статье, но её веса не выкладывают — она остаётся внутренним инструментом.

Как это работает

Архитектура Stable Audio 3 состоит из двух крупных частей:

Семантико-акустический автоэнкодер.
- Принимает исходное аудио и сжимает его в компактный латентный вектор.
- Задача — сохранить не только спектральные детали (тембр, атаки, шумы), но и семантику: структуру трека, фразы, ритм, развитие.
- В латентном пространстве аудио представлено гораздо компактнее, чем в исходном временном ряду, что делает диффузию намного быстрее.
Латентная диффузионная модель.
- Работает не с «сырым» звуком, а с латентами автоэнкодера.
- Для генерации: стартует с шума в латентном пространстве и шаг за шагом превращает его в осмысленное представление аудио.
- Для редактирования и инпейтинга: часть латента фиксируется (существующий звук), часть заменяется шумом, и модель восстанавливает недостающий фрагмент.

После основного обучения авторы проводят адверсариальное пост-тренирование:

К диффузионной модели добавляют дискриминатор, который учится отличать сгенерированное аудио от реального.
Генератор (диффузионная модель) оптимизируется так, чтобы обманывать дискриминатор.
Параллельно оптимизируются метрики качества: разборчивость, правдоподобность и соответствие текстовому описанию.

Результат — можно использовать меньше шагов диффузии без провала в качестве. Отсюда и заявленные <2 секунд на H200 и «несколько секунд» на MacBook Pro M4.

Что это значит для вас

Кому это пригодится

Музыкантам и продюсерам.
- Быстро накидать драфт аранжировки по текстовому описанию.
- Сгенерировать несколько минут фоновой музыки для видео или презентации.
- Продлить удачный луп или заполнить «дыру» в треке с помощью инпейтинга.
Звукорежиссёрам и саунд-дизайнерам.
- Делать короткие звуковые эффекты без полного рендера длинного трека.
- Точечно перезаписывать фрагменты аудио, не трогая остальное.
- Пробовать разные варианты атмосферы (дождь, улица, офис) по текстовому запросу.
Разработчикам игр и приложений.
- Генерировать вариативные звуки шагов, оружия, интерфейсов.
- Автоматически собирать длинные звуковые дорожки из коротких клипов.
- Интегрировать Stable Audio 3 small/medium прямо в пайплайн на потребительском железе.
Создателям контента.
- Делать фоновую музыку для подкастов, стримов и YouTube.
- Генерировать звуковое оформление для Reels и Shorts без покупки стоков.

Ограничения и подводные камни

Качество всё ещё зависит от запроса. Для сложных жанров и детальных аранжировок придётся экспериментировать с промптами.
Версия large недоступна. Открыты только small и medium, которые ориентированы на потребительские GPU и ноутбуки. Максимальное качество, описанное в статье, может относиться к large.
Нужны базовые навыки работы с Python и ML-инструментами. Авторы выкладывают код обучения и инференса. Для продакшн-интеграции без разработчика будет сложно.
Юридические вопросы использования. Модели обучены на лицензированных и Creative Commons данных, но ответственность за использование сгенерированного контента (музыка для рекламы, игр и т.д.) лежит на вас. Придётся сверяться с лицензией Stable Audio 3.

О доступности в России, необходимости VPN или ограничениях по странам авторы статьи не пишут. Если Stability AI раздаёт веса через GitHub или собственный сайт, в ряде случаев может понадобиться VPN — это стоит проверить отдельно на момент установки.

Место на рынке

Stable Audio 3 находится в сегменте генеративного аудио рядом с другими моделями, но в статье авторы фокусируются на собственных результатах и не приводят прямых сравнений по метрикам с конкурентами.

Из конкретных параметров, которые выделяют Stable Audio 3:

Скорость. Менее 2 секунд на NVIDIA H200 и несколько секунд на MacBook Pro M4 для генерации музыки и звуков.
Переменная длина. Можно генерировать как короткие эффекты, так и несколько минут аудио без перерасхода ресурсов.
Редактирование (инпейтинг). Поддержка точечного редактирования и продолжения записей, что делает Stable Audio 3 не только генератором, но и инструментом пост-продакшна.
Открытые веса и пайплайн. Small и medium доступны для запуска на потребительском оборудовании, плюс открыт код обучения и инференса.

Если вы уже работаете с другими аудиогенераторами, Stable Audio 3 интересен именно как:

Быстрый инструмент для локального инференса на ноутбуке или десктопе.
Платформа для собственных экспериментов с обучением и дообучением благодаря открытому коду.

Прямых цифр по сравнению с конкурентами в статье нет, поэтому оценивать «кто лучше» придётся на собственных тестах.

Как запустить

Авторы статьи указывают два ключевых ресурса:

Код обучения: this https URL
Инференс и веса: this http URL

Это заглушки в тексте статьи — реальные ссылки нужно брать на странице arXiv по адресу https://arxiv.org/abs/2605.17991 в разделе «Comments» или в сопроводительных материалах.

Обычно пайплайн для таких моделей выглядит так:

Склонировать репозиторий с обучающим и инференс-кодом.
Установить зависимости (PyTorch, аудиобиблиотеки, менеджер экспериментов).
Скачать веса моделей small или medium.
Запустить скрипт инференса с текстовым промптом и параметрами длины аудио.

Разработчики Stable Audio 3 заявляют, что small и medium можно запускать на потребительском железе. Для комфортной работы с несколькими минутами аудио лучше иметь GPU среднего уровня или современный MacBook Pro на M4.