- Дата публикации
AWS обработала 8,5 тысяч часов видео за 41 час. Как это поможет искать ролики по описанию
Что появилось / что изменилось
AWS показала, как построить поиск по видео на естественном языке. Система обработала 792 270 видео (8 480 часов) из открытых датасетов Multimedia Commons и MEVA. Срок обработки — 41 час. Использовались четыре мощных инстанса EC2 c7i.48xlarge и модель Nova Multimodal Embeddings от Amazon Bedrock.
Стоимость первого года работы: 27 328 долларов при оплате OpenSearch по требованию или 23 632 доллара с резервированием инстансов. Основные расходы — 18 088 долларов на однократный импорт данных и 9 240 (или 5 544) долларов на год работы OpenSearch.
Детализация затрат на импорт:
- Вычислительные ресурсы EC2 (4 инстанса spot): 421 доллар.
- Генерация мультимодальных эмбеддингов Nova: 17 096 долларов (30,5 млн секунд видео).
- Автоматическое тегирование моделью Nova Pro: 571 доллар.
Система генерирует 1024-мерные эмбеддинги для аудио и видео вместе (AUDIO_VIDEO_COMBINED), что в три раза дешевле для хранения, чем 3072-мерные, с минимальной потерей точности.
Как это работает
Архитектура состоит из двух частей: конвейера импорта и поиска.
Конвейер импорта использует 600 параллельных воркеров на четырёх инстансах EC2. Он обрабатывает 19 400 видео в час. Из-за ограничения Bedrock в 30 одновременных асинхронных задач реализована очередь с опросом статуса. Видео разбиваются на 15-секундные сегменты — это баланс между сменами сцен и количеством эмбеддингов. Модель Nova Pro добавляет 10-15 описательных тегов к каждому видео.
Полученные эмбеддинги сохраняются в векторный индекс k-NN в OpenSearch для семантического поиска, а теги — в обычный текстовый индекс для ключевых слов.
Поиск работает в трёх режимах:
- Текст-в-видео: запрос на естественном языке (например, «кошка играет с мячом») конвертируется в эмбеддинг и ищет похожие видео.
- Видео-в-видео: система находит визуально и по звуку похожие ролики, сравнивая их эмбеддинги.
- Гибридный поиск: объединяет векторный поиск (70% веса) и ключевые слова (30% веса) для максимальной релевантности.
Что это значит для вас
Этот кейс — готовый рецепт для компаний с большими архивами видео. Система заменяет ручное тегирование и примитивный поиск по названиям файлов. Вы сможете искать в библиотеке по смыслу, а не по совпадению слов.
Где применять:
- Медиа и развлечения: для поиска конкретных сцен в архиве киностудии или телеканала.
- Образование: чтобы быстро находить учебные ролики по описанию темы.
- Безопасность: для анализа видеонаблюдения по событиям («человек в красной куртке»).
Где не применять:
- Для небольших коллекций в несколько десятков роликов. Стоимость и сложность внедрения не окупятся.
- Если нужна мгновенная обработка живого потока. Система оптимизирована для асинхронной пакетной обработки архивов.
- Важно: сервисы Amazon Bedrock и связанные модели официально недоступны в России. Реализация подобного решения потребует использования альтернативных платформ или инфраструктуры за пределами РФ.
Место на рынке
Подход AWS конкурирует с аналогичными предложениями Google Vertex AI (с мультимодальной модельми Gemini) и Microsoft Azure AI Vision. Ключевое отличие — глубокая интеграция Nova Multimodal Embeddings с другими сервисами AWS (OpenSearch, S3, EC2), что упрощает развёртывание для клиентов экосистемы.
Amazon отмечает, что для задач тегирования теперь стоит рассмотреть новую модель Nova 2 Lite — она предлагает лучшую точность при меньшей стоимости. В представленном кейсе использовалась Nova Pro, но для новых проектов выбор может быть иным.
По стоимости обработки данных прямых сравнений с GPT-4o или Claude 3 в исходном материале нет. Решение от AWS — это не просто модель, а комплексная инфраструктура для обработки видео на петабайтном масштабе.