Дата публикации
ai_products

Stable Audio 3: генерация музыки и звуков за пару секунд на обычном ноутбуке

Что нового

Stable Audio 3 — новое семейство генеративных аудиомоделей от Stability AI. Авторы описывают сразу три варианта: small, medium и large. Главное: все они работают как быстрые латентные диффузионные модели и умеют генерировать звук переменной длины.

Ключевые изменения по сравнению с прошлым поколением:

  • Переменная длина аудио. Модель не обязана рендерить целый трек, если нужен короткий звук. Это экономит время и вычисления, особенно при работе с короткими эффектами.
  • Инпейтинг и продолжение записи. Stable Audio 3 может «дорисовать» фрагмент внутри уже существующего аудио или продолжить короткую запись дальше по таймлайну.
  • Новый семантико-акустический автоэнкодер. Аудио сначала сжимается в компактное латентное представление, которое сохраняет качество и структуру, а уже в нём работает диффузия.
  • Адверсариальное пост-обучение. Поверх диффузионной модели авторы запускают дополнительное обучение с использованием дискриминатора. Это уменьшает число шагов инференса и повышает качество звука и соответствие текстовому запросу.
  • Производительность. Генерация музыки и звуков занимает менее 2 секунд на GPU NVIDIA H200 и менее нескольких секунд на MacBook Pro с чипом M4.
  • Лицензия датасета. Модели тренировали на лицензированных и Creative Commons данных, а не на «чём нашли в интернете».
  • Открытый доступ к весам и пайплайну. Авторы публикуют веса версий small и medium, которые можно запускать на потребительском железе, а также код обучения и инференса.

Версия large описана в статье, но её веса не выкладывают — она остаётся внутренним инструментом.

Как это работает

Архитектура Stable Audio 3 состоит из двух крупных частей:

  1. Семантико-акустический автоэнкодер.

    • Принимает исходное аудио и сжимает его в компактный латентный вектор.
    • Задача — сохранить не только спектральные детали (тембр, атаки, шумы), но и семантику: структуру трека, фразы, ритм, развитие.
    • В латентном пространстве аудио представлено гораздо компактнее, чем в исходном временном ряду, что делает диффузию намного быстрее.
  2. Латентная диффузионная модель.

    • Работает не с «сырым» звуком, а с латентами автоэнкодера.
    • Для генерации: стартует с шума в латентном пространстве и шаг за шагом превращает его в осмысленное представление аудио.
    • Для редактирования и инпейтинга: часть латента фиксируется (существующий звук), часть заменяется шумом, и модель восстанавливает недостающий фрагмент.

После основного обучения авторы проводят адверсариальное пост-тренирование:

  • К диффузионной модели добавляют дискриминатор, который учится отличать сгенерированное аудио от реального.
  • Генератор (диффузионная модель) оптимизируется так, чтобы обманывать дискриминатор.
  • Параллельно оптимизируются метрики качества: разборчивость, правдоподобность и соответствие текстовому описанию.

Результат — можно использовать меньше шагов диффузии без провала в качестве. Отсюда и заявленные <2 секунд на H200 и «несколько секунд» на MacBook Pro M4.

Что это значит для вас

Кому это пригодится

  • Музыкантам и продюсерам.

    • Быстро накидать драфт аранжировки по текстовому описанию.
    • Сгенерировать несколько минут фоновой музыки для видео или презентации.
    • Продлить удачный луп или заполнить «дыру» в треке с помощью инпейтинга.
  • Звукорежиссёрам и саунд-дизайнерам.

    • Делать короткие звуковые эффекты без полного рендера длинного трека.
    • Точечно перезаписывать фрагменты аудио, не трогая остальное.
    • Пробовать разные варианты атмосферы (дождь, улица, офис) по текстовому запросу.
  • Разработчикам игр и приложений.

    • Генерировать вариативные звуки шагов, оружия, интерфейсов.
    • Автоматически собирать длинные звуковые дорожки из коротких клипов.
    • Интегрировать Stable Audio 3 small/medium прямо в пайплайн на потребительском железе.
  • Создателям контента.

    • Делать фоновую музыку для подкастов, стримов и YouTube.
    • Генерировать звуковое оформление для Reels и Shorts без покупки стоков.

Ограничения и подводные камни

  • Качество всё ещё зависит от запроса. Для сложных жанров и детальных аранжировок придётся экспериментировать с промптами.
  • Версия large недоступна. Открыты только small и medium, которые ориентированы на потребительские GPU и ноутбуки. Максимальное качество, описанное в статье, может относиться к large.
  • Нужны базовые навыки работы с Python и ML-инструментами. Авторы выкладывают код обучения и инференса. Для продакшн-интеграции без разработчика будет сложно.
  • Юридические вопросы использования. Модели обучены на лицензированных и Creative Commons данных, но ответственность за использование сгенерированного контента (музыка для рекламы, игр и т.д.) лежит на вас. Придётся сверяться с лицензией Stable Audio 3.

О доступности в России, необходимости VPN или ограничениях по странам авторы статьи не пишут. Если Stability AI раздаёт веса через GitHub или собственный сайт, в ряде случаев может понадобиться VPN — это стоит проверить отдельно на момент установки.

Место на рынке

Stable Audio 3 находится в сегменте генеративного аудио рядом с другими моделями, но в статье авторы фокусируются на собственных результатах и не приводят прямых сравнений по метрикам с конкурентами.

Из конкретных параметров, которые выделяют Stable Audio 3:

  • Скорость. Менее 2 секунд на NVIDIA H200 и несколько секунд на MacBook Pro M4 для генерации музыки и звуков.
  • Переменная длина. Можно генерировать как короткие эффекты, так и несколько минут аудио без перерасхода ресурсов.
  • Редактирование (инпейтинг). Поддержка точечного редактирования и продолжения записей, что делает Stable Audio 3 не только генератором, но и инструментом пост-продакшна.
  • Открытые веса и пайплайн. Small и medium доступны для запуска на потребительском оборудовании, плюс открыт код обучения и инференса.

Если вы уже работаете с другими аудиогенераторами, Stable Audio 3 интересен именно как:

  • Быстрый инструмент для локального инференса на ноутбуке или десктопе.
  • Платформа для собственных экспериментов с обучением и дообучением благодаря открытому коду.

Прямых цифр по сравнению с конкурентами в статье нет, поэтому оценивать «кто лучше» придётся на собственных тестах.

Как запустить

Авторы статьи указывают два ключевых ресурса:

  • Код обучения: this https URL
  • Инференс и веса: this http URL

Это заглушки в тексте статьи — реальные ссылки нужно брать на странице arXiv по адресу https://arxiv.org/abs/2605.17991 в разделе «Comments» или в сопроводительных материалах.

Обычно пайплайн для таких моделей выглядит так:

  1. Склонировать репозиторий с обучающим и инференс-кодом.
  2. Установить зависимости (PyTorch, аудиобиблиотеки, менеджер экспериментов).
  3. Скачать веса моделей small или medium.
  4. Запустить скрипт инференса с текстовым промптом и параметрами длины аудио.

Разработчики Stable Audio 3 заявляют, что small и medium можно запускать на потребительском железе. Для комфортной работы с несколькими минутами аудио лучше иметь GPU среднего уровня или современный MacBook Pro на M4.


Читайте также

🔗 Источник: https://stability.ai/stable-audio