- Дата публикации
Veo 3.1: Google научила генеративное видео говорить и звучать
Что нового
Google DeepMind обновила линейку Veo — генеративный видеодвижок для создателей контента, режиссёров и продакшенов. Главный релиз — Veo 3 и свежая версия Veo 3.1, которая впервые работает не только с картинкой, но и с полноценным звуком.
Ключевые изменения:
-
Нативный звук в видео
Veo 3 и Veo 3.1 генерируют:- звуковые эффекты (шум города, ветер, крылья птиц, моторы машин);
- амбиент (фоновые звуки, атмосфера пространства);
- музыкальное сопровождение (например, «мягкий соулфул хип-хоп бит»);
- диалоги персонажей, синхронизированные со сценой.
Всё это создаётся по одному текстовому промпту — без отдельной дорожки, поиска стоков и монтажа.
-
Фокус на реализме и физике
Veo 3 улучшили по части:- реалистичного движения объектов и персонажей;
- правдоподобной физики (вода, грязь, удар подвески, полёт птицы);
- визуальной «достоверности» сцены: свет, текстуры, глубина.
Пример из промптов Google: хардкорное оффроуд-ралли с трясущейся камерой, брызгами грязи на объектив, тяжёлым приземлением машин и гулом двигателей.
-
Лучшая точность следования промптам
Модели стали внимательнее к деталям описания:- ракурс («средний план», «крупный план», «камера медленно наезжает»);
- настроение («созерцательная, но приземлённая атмосфера»);
- конкретные предметы и действия («карта на столе», «детектив допрашивает резиновую уточку»);
- структура сцены (последовательность кадров и реплик).
-
Расширенный креативный контроль
В Veo 3.1 можно точнее управлять:- тем, что происходит в кадре на протяжении сцены;
- темпом камеры (наезд, следящий кадр, shaky-cam);
- звуковым слоем: что именно слышно и когда (фоновая музыка, реплики, шумы).
-
Интеграции и доступ
Veo доступен в нескольких продуктах Google:- Gemini — генерация видео по текстовому запросу внутри ассистента;
- Flow — платформа для разработчиков и компаний, которые хотят встроить Veo в свои продукты;
- Build with Veo — инструменты для более глубокого использования Veo 3 в пайплайнах продакшена.
Числовых бенчмарков по скорости, длине роликов или стоимости Google не раскрывает, но в коммуникации делает акцент на «best in class» по качеству картинки, физики и соответствию промпту.
Как это работает
Google не публикует архитектуру Veo 3.1 целиком, но по описанию и примерам можно собрать общую картину того, что происходит «под капотом».
-
Единый генеративный стек для видео и аудио
Veo 3.1 воспринимает один текстовый промпт и на его основе генерирует:- последовательность кадров (видео);
- звуковую дорожку, синхронизированную с этими кадрами.
В промптах Google звук описан прямо внутри сценария:
«Faint city murmurs and distant chatter drift in, accompanied by a mellow, soulful hip-hop beat…»
«Audio: wings flapping, birdsong, wind rustling, light orchestral score…»Это значит, что модель видит аудио как часть сценографии, а не как отдельный пост-эффект.
-
Текст → сценарий → мультимодальная сцена
Типичный промпт для Veo 3.1 — это уже не просто «кот на скейтборде», а мини-сценарий:- описание ракурса: «средний план», «следящий кадр», «крупный план»;
- детали персонажей: «седой мужчина в очках и пёстрой рубашке, золотая цепь поблёскивает»;
- фон: «яркий мурал на стене, намёк на урбанистический сеттинг»;
- динамика камеры: «камера медленно наезжает, подчёркивая их тихую сосредоточенность»;
- звук: «городской шум, разговоры, соулфул хип-хоп»;
- диалог: точные реплики с интонацией.
Модель учится воспринимать это как единую временную структуру и синхронно строит и изображение, и звук.
-
Моделирование физики и среды
На примере оффроуд-ралли видно, что Veo 3.1 учитывает физику сцены:- разлёт грязи и воды при въезде багги в реку;
- временную последовательность: сначала багги создаёт «стену» грязевой воды, потом в неё врезается грузовик;
- поведение камеры: тряска, брызги на объектив, случайные блики от солнца;
- звук: рев мотора, удары подвески, шипение воды.
Это требует не только генерации кадров, но и внутренней «модели мира», которая понимает, как объекты взаимодействуют.
-
Синхронизация речи и действия
В примерах с диалогами модель управляет и текстом, и голосом, и мимикой персонажей.Примеры промптов:
-
Старый моряк на палубе:
«He holds his pipe… gestures towards the churning, grey sea… "This ocean, it's a force, a wild, untamed might…"»
-
Детектив и резиновая уточка:
«"Where were you on the night of the bubble bath?!" he quacks. Audio: Detective's stern quack, nervous squeaks from rubber duck.»
-
Шпионы на вокзале:
«"The microfilm is in your ticket" he murmured… "They're watching the north exit" she warned… announcements of arrivals and departures.»
Veo 3.1 должна:
- синхронизировать движение губ с репликами;
- подобрать тембр и интонацию под контекст (строгий детектив, нервный барсук, взволнованный картограф);
- совместить диалог с фоновым шумом (вокзал, лес, море).
-
-
Интерфейсы доступа
- Gemini: вы пишете промпт обычным языком, Gemini передаёт запрос в Veo и возвращает готовый ролик.
- Flow: разработчики встраивают Veo в свои продукты, собирая цепочки «текст → видео+аудио».
- Build with Veo: инструменты и API-уровень для более тонкой интеграции (детали Google не раскрывает, но по формулировке видно, что это про кастомные пайплайны).
Что это значит для вас
Veo 3.1 — это инструмент для тех, кто работает с видео и хочет быстро собирать сцены по текстовому описанию. Но у продукта есть ограничения по доступности и применению.
Где Veo 3.1 реально помогает
-
Режиссёры и сценаристы
- Быстрое прототипирование сцен: можно описать эпизод словами и получить «чёрновой» ролик с камерой, светом и звуком.
- Тестирование вариантов: менять ракурсы, атмосферу, музыку, диалоги, не поднимая съёмочную группу.
- Визуализация сторибордов для питчинга.
-
Маркетинг и креативные агентства
- Создание коротких промо-роликов и сториз с озвучкой и саунд-дизайном по одному промпту.
- Быстрая проверка концепций: от серьёзных до абсурдных (пример Google с детективом и резиновой уточкой).
-
Анимация и сторителлинг
- Сказочные и мультяшные сцены с животными, которые разговаривают: сова, барсук, белка в ночном лесу, музыка и атмосфера полностью генерируются.
- Исторические или приключенческие зарисовки: картограф с картой, лампы, реплики — всё описывается текстом.
-
Технические и продуктовые демо
- Сцены с транспортом, динамикой, сложной физикой (ралли, вода, грязь, тряска камеры) для презентаций и концептов.
Где Veo 3.1 пока не лучший выбор
-
Полнометражное кино и сериалы
Для длинных форматов с живыми актёрами, сложной актёрской игрой и юридически чистой озвучкой классический продакшен всё ещё надёжнее. -
Документальные проекты, где важна фактическая точность
Генеративное видео по определению создаёт вымышленные сцены. Для реконструкций, новостей, расследований это рискованная территория. -
Юридически чувствительный контент
Вопрос прав на сгенерированную музыку, голоса и визуальные образы остаётся открытым. Для крупных брендов это повод подключать юристов. -
Проекты с жёсткими требованиями к голосу
Если вам нужен конкретный актёр, узнаваемый голос или брендовый диктор, придётся использовать живую озвучку или специализированные голосовые движки.
Доступность и ограничения для России
- Veo 3.1 доступен через сервисы Google: Gemini, Flow и инструменты «Build with Veo».
- Доступ к этим сервисам может быть ограничен по региону. Для работы из России, вероятнее всего, понадобится VPN и аккаунт, который Google не блокирует по географии.
- Корпоративные клиенты могут интегрировать Veo через Google Cloud и Flow, но доступность конкретных тарифов и юридические нюансы зависят от вашей юрструктуры и страны регистрации.
Перед тем как строить на Veo 3.1 продакшн-процессы, имеет смысл протестировать доступ с ваших рабочих аккаунтов и обсудить с юристами использование сгенерированного контента.
Место на рынке
Google позиционирует Veo 3.1 как флагманский движок для генерации видео с нативным аудио. В промоматериалах компания подчёркивает:
- качество физики и реализма (пример с оффроуд-ралли);
- точность следования сложным промптам с диалогами и звуковым описанием;
- возможность описывать сцены как мини-сценарии, а не просто ключевые слова.
Прямые числовые сравнения с другими генеративными системами Google не приводит. Также нет данных по скорости рендеринга, максимальной длине роликов, разрешению и стоимости генерации.
По уровню сложности промптов видно, что Veo 3.1 нацелен на продвинутую аудиторию:
- многоплановые сцены (город, море, лес, вокзал);
- сочетание диалогов, фоновых шумов и музыки;
- работа с камерой (наезд, следящий кадр, shaky-cam);
- эмоциональные оттенки (созерцательность, нервозность, оптимистичная оркестровая музыка).
Если вы уже пробовали другие генераторы видео и упирались в отсутствие звука, слабую физику или игнорирование сложных описаний, Veo 3.1 выглядит как логичный кандидат для теста — при условии, что у вас есть доступ к экосистеме Google.
Как формулировать промпты для Veo 3.1
Google прямо в примерах показывает, какие промпты лучше всего «раскрывают» возможности Veo.
1. Описывайте камеру и план
Плохо: «старик смотрит на море».
Лучше, в стиле примеров Veo:
«A medium shot frames an old sailor… He holds his pipe in one hand, gesturing with it towards the churning, grey sea beyond the ship's railing.»
Используйте:
- medium shot, close up, follow shot;
- camera slowly pushes in, camera is shaky, handheld look.
2. Добавляйте атмосферу и фон
Пример Google:
«In the background, a vibrant mural splashes across a wall, hinting at an urban setting. Faint city murmurs and distant chatter drift in…»
Детали фона помогают модели собрать цельную сцену, а не просто поставить персонажа на абстрактный фон.
3. Чётко прописывайте звук
Google использует явный префикс:
«Audio: wings flapping, birdsong, loud and pleasant wind rustling… A light orchestral score with woodwinds…»
Рекомендуется:
- отделять звуковые указания словом
Audio:; - перечислять конкретные источники звука (ветер, шаги, мотор, вокзал);
- задавать характер музыки (жанр, настроение, ритм).
4. Встраивайте диалоги в сцену
Формат из примеров:
«"The city always got a story," the older man murmurs, a slight nod of his head. "Just gotta listen."»
или:
«Cartographer: "According to this old sea chart, the lost island isn't myth! We must prepare an expedition immediately!"»
Это помогает модели понять, кто говорит, в каком состоянии и как это связано с действием.
5. Не бойтесь длинных промптов
Промпты Google — это полноценные абзацы с несколькими предложениями, а не одно-два ключевых слова. Veo 3.1 рассчитан на такой формат: ему нужно достаточно контекста, чтобы скоординировать видео и звук.
Если вы привыкли к коротким промптам, попробуйте мыслить как сценарист: кто, где, что делает, как движется камера, что слышно и что говорят персонажи.