- Дата публикации
AWS учит ML‑команды жить по-умному: офлайн feature store на SageMaker Unified Studio
Что появилось / что изменилось
AWS предлагает готовый рецепт, как собрать офлайн feature store поверх Amazon SageMaker Unified Studio и SageMaker Catalog.
Ключевые элементы:
- SageMaker Unified Studio — общий домен для проектов, пользователей и датасетов с централизованным управлением.
- SageMaker Catalog — реестр, где ML‑команды публикуют, находят и подписываются на таблицы признаков.
- Amazon S3 Tables + Apache Iceberg — формат хранения исторических фичей с транзакционной целостностью и версионированием.
- AWS Lake Formation — точечные права доступа к данным на уровне таблиц и колонок.
- Визуальный ETL и Jupyter в SageMaker Studio — единая среда для конвейеров фичей и экспериментов.
AWS описывает полный рабочий цикл: от развёртывания окружения через CloudFormation до публикации версионированных таблиц признаков и подписки на них из ML‑проектов. Это не отдельный новый сервис, а связка уже существующих компонентов в одну практическую схему.
Как это работает
Архитектура строится вокруг одного домена SageMaker Unified Studio.
-
Администратор:
- разворачивает окружение через AWS CloudFormation и AWS Management Console;
- создаёт домен Unified Studio, пользователей и группы;
- поднимает data‑проект и подключает S3‑датасеты (например,
airline_delay.csvи S3‑таблицуairline_features) в каталог проекта; - назначает data‑инженера владельцем проекта.
-
Data‑инженер:
- открывает data‑проект в Studio;
- собирает pipeline фичей через визуальный ETL или кодовый job;
- пишет признаки в S3‑таблицу
airline_featuresв формате Apache Iceberg; - через data explorer добавляет метаданные: описания колонок, теги, информацию для поиска и аудита;
- после проверки публикует таблицу
airline_featuresв SageMaker Catalog на уровень всей организации.
-
Data scientist:
- заходит в ML‑проект в Unified Studio;
- через AI‑поиск находит опубликованную таблицу
airline_featuresв SageMaker Catalog; - отправляет запрос на подписку. Если автоапрув не включён, владелец таблицы вручную подтверждает доступ;
- после одобрения использует таблицу через data explorer или напрямую из Jupyter‑ноутбуков для обучения и валидации моделей.
Под капотом:
- Apache Iceberg даёт снапшоты, версионирование и ACID‑операции по данным фичей.
- Lake Formation управляет правами: кто может видеть таблицу, какие столбцы доступны, кто может публиковать.
- SageMaker Catalog хранит единый реестр версионированных таблиц признаков, их схемы и метаданные.
Что это значит для вас
Если у вас несколько ML‑команд, а признаки к моделям собираются в каждом проекте заново, эта схема поможет:
- Свести хаос в фичах. Один раз построили таблицу признаков — дальше её переиспользуют другие команды через подписку, а не копированием кода.
- Избежать утечек по времени. Офлайн feature store хранит исторические данные в Iceberg‑таблицах, что упрощает сбор корректных train/validation‑срезов.
- Наладить управление доступом. Lake Formation и Catalog позволяют чётко разделять, кто может публиковать, кто только читать и какие столбцы доступны.
- Ускорить эксперименты. Data scientists не тратят недели на повторную инженерии признаков, а берут уже проверенные таблицы с понятной родословной.
Где это полезно:
- крупные ML‑продукты с несколькими командами и десятками моделей;
- домены с жёсткими требованиями к аудитам и воспроизводимости (финансы, телеком, логистика);
- сценарии, где важна история признаков: прогнозы спроса, риск‑скоринг, модели оттока.
Где это избыточно:
- маленькие команды с одной‑двумя моделями и редкими релизами;
- проекты, где признаки живут только в стриминге и нет потребности в историческом офлайн‑хранилище.
Нужно учитывать, что всё это работает в экосистеме AWS: SageMaker, S3, Lake Formation. Для работы из России часто понадобится VPN и юридическая готовность к размещению данных в зарубежном облаке.
Место на рынке
Решение AWS закрывает нишу офлайн feature store внутри их собственного стека. По сути это альтернатива отдельным feature‑store‑платформам, но без выноса данных за пределы вашего AWS‑аккаунта.
С точки зрения функций:
- хранение исторических фичей — через S3 Tables и Apache Iceberg;
- единый каталог и поиск — через SageMaker Catalog и AI‑поиск в Unified Studio;
- управление доступом — через Lake Formation и роли AWS;
- разработка конвейеров — визуальный ETL и Jupyter в SageMaker Studio.
Напрямую сравнивать скорость или стоимость с сторонними feature store вроде Feast или Tecton без бенчмарков нельзя. Здесь ставка на другое: если вы уже глубоко сидите в SageMaker, это естественное продолжение инфраструктуры без дополнительного зоопарка сервисов.
Если же ваш ML‑ландшафт строится вокруг других облаков или on‑prem, придётся либо тащить данные в AWS, либо смотреть в сторону независимых feature store‑решений.