AWS обработала 8,5 тысяч часов видео за 41 час. Как это поможет искать ролики по описанию — VogueTech

Что появилось / что изменилось

AWS показала, как построить поиск по видео на естественном языке. Система обработала 792 270 видео (8 480 часов) из открытых датасетов Multimedia Commons и MEVA. Срок обработки — 41 час. Использовались четыре мощных инстанса EC2 c7i.48xlarge и модель Nova Multimodal Embeddings от Amazon Bedrock.

Стоимость первого года работы: 27 328 долларов при оплате OpenSearch по требованию или 23 632 доллара с резервированием инстансов. Основные расходы — 18 088 долларов на однократный импорт данных и 9 240 (или 5 544) долларов на год работы OpenSearch.

Детализация затрат на импорт:

Вычислительные ресурсы EC2 (4 инстанса spot): 421 доллар.
Генерация мультимодальных эмбеддингов Nova: 17 096 долларов (30,5 млн секунд видео).
Автоматическое тегирование моделью Nova Pro: 571 доллар.

Система генерирует 1024-мерные эмбеддинги для аудио и видео вместе (AUDIO_VIDEO_COMBINED), что в три раза дешевле для хранения, чем 3072-мерные, с минимальной потерей точности.

Как это работает

Архитектура состоит из двух частей: конвейера импорта и поиска.

Конвейер импорта использует 600 параллельных воркеров на четырёх инстансах EC2. Он обрабатывает 19 400 видео в час. Из-за ограничения Bedrock в 30 одновременных асинхронных задач реализована очередь с опросом статуса. Видео разбиваются на 15-секундные сегменты — это баланс между сменами сцен и количеством эмбеддингов. Модель Nova Pro добавляет 10-15 описательных тегов к каждому видео.

Полученные эмбеддинги сохраняются в векторный индекс k-NN в OpenSearch для семантического поиска, а теги — в обычный текстовый индекс для ключевых слов.

Поиск работает в трёх режимах:

Текст-в-видео: запрос на естественном языке (например, «кошка играет с мячом») конвертируется в эмбеддинг и ищет похожие видео.
Видео-в-видео: система находит визуально и по звуку похожие ролики, сравнивая их эмбеддинги.
Гибридный поиск: объединяет векторный поиск (70% веса) и ключевые слова (30% веса) для максимальной релевантности.

Что это значит для вас

Этот кейс — готовый рецепт для компаний с большими архивами видео. Система заменяет ручное тегирование и примитивный поиск по названиям файлов. Вы сможете искать в библиотеке по смыслу, а не по совпадению слов.

Где применять:

Медиа и развлечения: для поиска конкретных сцен в архиве киностудии или телеканала.
Образование: чтобы быстро находить учебные ролики по описанию темы.
Безопасность: для анализа видеонаблюдения по событиям («человек в красной куртке»).

Где не применять:

Для небольших коллекций в несколько десятков роликов. Стоимость и сложность внедрения не окупятся.
Если нужна мгновенная обработка живого потока. Система оптимизирована для асинхронной пакетной обработки архивов.
Важно: сервисы Amazon Bedrock и связанные модели официально недоступны в России. Реализация подобного решения потребует использования альтернативных платформ или инфраструктуры за пределами РФ.

Место на рынке

Подход AWS конкурирует с аналогичными предложениями Google Vertex AI (с мультимодальной модельми Gemini) и Microsoft Azure AI Vision. Ключевое отличие — глубокая интеграция Nova Multimodal Embeddings с другими сервисами AWS (OpenSearch, S3, EC2), что упрощает развёртывание для клиентов экосистемы.

Amazon отмечает, что для задач тегирования теперь стоит рассмотреть новую модель Nova 2 Lite — она предлагает лучшую точность при меньшей стоимости. В представленном кейсе использовалась Nova Pro, но для новых проектов выбор может быть иным.

По стоимости обработки данных прямых сравнений с GPT-4o или Claude 3 в исходном материале нет. Решение от AWS — это не просто модель, а комплексная инфраструктура для обработки видео на петабайтном масштабе.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также