- Дата публикации
Stable Audio 3: генерация музыки и звуков за пару секунд на обычном ноутбуке
Что нового
Stable Audio 3 — новое семейство генеративных аудиомоделей от Stability AI. Авторы описывают сразу три варианта: small, medium и large. Главное: все они работают как быстрые латентные диффузионные модели и умеют генерировать звук переменной длины.
Ключевые изменения по сравнению с прошлым поколением:
- Переменная длина аудио. Модель не обязана рендерить целый трек, если нужен короткий звук. Это экономит время и вычисления, особенно при работе с короткими эффектами.
- Инпейтинг и продолжение записи. Stable Audio 3 может «дорисовать» фрагмент внутри уже существующего аудио или продолжить короткую запись дальше по таймлайну.
- Новый семантико-акустический автоэнкодер. Аудио сначала сжимается в компактное латентное представление, которое сохраняет качество и структуру, а уже в нём работает диффузия.
- Адверсариальное пост-обучение. Поверх диффузионной модели авторы запускают дополнительное обучение с использованием дискриминатора. Это уменьшает число шагов инференса и повышает качество звука и соответствие текстовому запросу.
- Производительность. Генерация музыки и звуков занимает менее 2 секунд на GPU NVIDIA H200 и менее нескольких секунд на MacBook Pro с чипом M4.
- Лицензия датасета. Модели тренировали на лицензированных и Creative Commons данных, а не на «чём нашли в интернете».
- Открытый доступ к весам и пайплайну. Авторы публикуют веса версий small и medium, которые можно запускать на потребительском железе, а также код обучения и инференса.
Версия large описана в статье, но её веса не выкладывают — она остаётся внутренним инструментом.
Как это работает
Архитектура Stable Audio 3 состоит из двух крупных частей:
-
Семантико-акустический автоэнкодер.
- Принимает исходное аудио и сжимает его в компактный латентный вектор.
- Задача — сохранить не только спектральные детали (тембр, атаки, шумы), но и семантику: структуру трека, фразы, ритм, развитие.
- В латентном пространстве аудио представлено гораздо компактнее, чем в исходном временном ряду, что делает диффузию намного быстрее.
-
Латентная диффузионная модель.
- Работает не с «сырым» звуком, а с латентами автоэнкодера.
- Для генерации: стартует с шума в латентном пространстве и шаг за шагом превращает его в осмысленное представление аудио.
- Для редактирования и инпейтинга: часть латента фиксируется (существующий звук), часть заменяется шумом, и модель восстанавливает недостающий фрагмент.
После основного обучения авторы проводят адверсариальное пост-тренирование:
- К диффузионной модели добавляют дискриминатор, который учится отличать сгенерированное аудио от реального.
- Генератор (диффузионная модель) оптимизируется так, чтобы обманывать дискриминатор.
- Параллельно оптимизируются метрики качества: разборчивость, правдоподобность и соответствие текстовому описанию.
Результат — можно использовать меньше шагов диффузии без провала в качестве. Отсюда и заявленные <2 секунд на H200 и «несколько секунд» на MacBook Pro M4.
Что это значит для вас
Кому это пригодится
-
Музыкантам и продюсерам.
- Быстро накидать драфт аранжировки по текстовому описанию.
- Сгенерировать несколько минут фоновой музыки для видео или презентации.
- Продлить удачный луп или заполнить «дыру» в треке с помощью инпейтинга.
-
Звукорежиссёрам и саунд-дизайнерам.
- Делать короткие звуковые эффекты без полного рендера длинного трека.
- Точечно перезаписывать фрагменты аудио, не трогая остальное.
- Пробовать разные варианты атмосферы (дождь, улица, офис) по текстовому запросу.
-
Разработчикам игр и приложений.
- Генерировать вариативные звуки шагов, оружия, интерфейсов.
- Автоматически собирать длинные звуковые дорожки из коротких клипов.
- Интегрировать Stable Audio 3 small/medium прямо в пайплайн на потребительском железе.
-
Создателям контента.
- Делать фоновую музыку для подкастов, стримов и YouTube.
- Генерировать звуковое оформление для Reels и Shorts без покупки стоков.
Ограничения и подводные камни
- Качество всё ещё зависит от запроса. Для сложных жанров и детальных аранжировок придётся экспериментировать с промптами.
- Версия large недоступна. Открыты только small и medium, которые ориентированы на потребительские GPU и ноутбуки. Максимальное качество, описанное в статье, может относиться к large.
- Нужны базовые навыки работы с Python и ML-инструментами. Авторы выкладывают код обучения и инференса. Для продакшн-интеграции без разработчика будет сложно.
- Юридические вопросы использования. Модели обучены на лицензированных и Creative Commons данных, но ответственность за использование сгенерированного контента (музыка для рекламы, игр и т.д.) лежит на вас. Придётся сверяться с лицензией Stable Audio 3.
О доступности в России, необходимости VPN или ограничениях по странам авторы статьи не пишут. Если Stability AI раздаёт веса через GitHub или собственный сайт, в ряде случаев может понадобиться VPN — это стоит проверить отдельно на момент установки.
Место на рынке
Stable Audio 3 находится в сегменте генеративного аудио рядом с другими моделями, но в статье авторы фокусируются на собственных результатах и не приводят прямых сравнений по метрикам с конкурентами.
Из конкретных параметров, которые выделяют Stable Audio 3:
- Скорость. Менее 2 секунд на NVIDIA H200 и несколько секунд на MacBook Pro M4 для генерации музыки и звуков.
- Переменная длина. Можно генерировать как короткие эффекты, так и несколько минут аудио без перерасхода ресурсов.
- Редактирование (инпейтинг). Поддержка точечного редактирования и продолжения записей, что делает Stable Audio 3 не только генератором, но и инструментом пост-продакшна.
- Открытые веса и пайплайн. Small и medium доступны для запуска на потребительском оборудовании, плюс открыт код обучения и инференса.
Если вы уже работаете с другими аудиогенераторами, Stable Audio 3 интересен именно как:
- Быстрый инструмент для локального инференса на ноутбуке или десктопе.
- Платформа для собственных экспериментов с обучением и дообучением благодаря открытому коду.
Прямых цифр по сравнению с конкурентами в статье нет, поэтому оценивать «кто лучше» придётся на собственных тестах.
Как запустить
Авторы статьи указывают два ключевых ресурса:
- Код обучения:
this https URL - Инференс и веса:
this http URL
Это заглушки в тексте статьи — реальные ссылки нужно брать на странице arXiv по адресу https://arxiv.org/abs/2605.17991 в разделе «Comments» или в сопроводительных материалах.
Обычно пайплайн для таких моделей выглядит так:
- Склонировать репозиторий с обучающим и инференс-кодом.
- Установить зависимости (PyTorch, аудиобиблиотеки, менеджер экспериментов).
- Скачать веса моделей small или medium.
- Запустить скрипт инференса с текстовым промптом и параметрами длины аудио.
Разработчики Stable Audio 3 заявляют, что small и medium можно запускать на потребительском железе. Для комфортной работы с несколькими минутами аудио лучше иметь GPU среднего уровня или современный MacBook Pro на M4.