Microsoft и UCL сделали платформу, которая тестирует ИИ на prompt injection вместо вас — VogueTech

Что нового

Команда студентов UCL вместе с Avanade и Microsoft построила полноценную платформу для тестирования LLM на prompt injection. Она работает поверх Microsoft Foundry и сочетает три вещи в одном месте:

Платформа для тестирования prompt injection:
- Подключает ваши LLM‑эндпоинты через HTTP.
- Работает с несколькими провайдерами моделей через Microsoft Foundry.
- Поддерживает кастомные системные промпты и «слои» защитных техник.
- Запускает как ваши собственные тесты, так и автоматические атаки через NVIDIA Garak.
- Показывает результаты и оценку риска, позволяет выгружать отчёты и базу знаний в PDF.
Структурированная база знаний по prompt injection:
- Каталог типов атак с описаниями, примерами и ссылками на внешние источники.
- Каталог техник защиты с описаниями и кодовыми примерами внедрения.
- Встроенный чат‑бот, который отвечает на вопросы по этим данным и ведёт к нужным страницам.
Инструмент "Prompt Enhancer":
- Принимает ваш текущий системный промпт.
- На основе базы знаний переписывает его более структурированно и безопасно.
- Добавляет выбранные защитные техники на уровне промпта (разделители, иерархия инструкций и т.п.).

Платформа родилась из индустриального проекта UCL IXN и нацелена не на узких специалистов по кибербезопасности, а именно на разработчиков, которые уже встраивают GPT‑подобные модели и агентов в продукты.

Цифр по скорости, стоимости запросов или лимитам контекста авторы не приводят — платформа работает поверх уже существующих LLM‑провайдеров, а не заменяет их.

Как это работает

Платформа построена как модульная система из четырёх слоёв:

Frontend
- Веб‑интерфейс, где разработчик:
  - Просматривает базу знаний по атакам и защитам.
  - Подключает модели и настраивает промпты.
  - Собирает и запускает тесты на prompt injection.
  - Смотрит результаты сканов и аналитику уязвимостей.
API‑слой (оркестрация)
- Принимает запросы с фронтенда: создать тест, запустить скан, запросить список моделей и доступных защит.
- Отдаёт фронтенду актуальные конфигурации и тестовые результаты.
- Автоматически «подхватывает» новые модели и техники защиты, добавленные в систему, без ручного обновления интерфейса.
Domain‑слой (ядро логики)
- Описывает интерфейсы для ключевых сущностей: моделей, защитных слоёв (mitigations), тест‑раннеров.
- Определяет структуру тестов, формат данных, правила согласованности.
- Здесь живут правила, по которым система понимает, что такое уязвимость, сценарий атаки и результат.
Integration‑слой
- Реализует конкретные интеграции:
  - Подключение к OpenAI, Anthropic и другим LLM через HTTP‑эндпоинты.
  - Интеграцию с NVIDIA Garak для автоматизированного «красного тиминга».
  - Доступ к базе данных и репозиториям, где хранятся тесты, результаты и база знаний.

Как устроено тестирование

Разработчик:

Подключает модель (через Foundry или свой HTTP‑эндпоинт).
Настраивает системный промпт и, при желании, защитные слои.
Выбирает или создаёт набор тестов:
- Таргетированные промпты под свою предметную область.
- Наборы атак из базы знаний.
- Автоматические сценарии из Garak.
Запускает скан.

Платформа:

Отправляет атаки на модель.
Фиксирует ответы, классифицирует их как безопасные/опасные.
Оценивает риск и показывает, какие техники защиты сработали, а какие — нет.

Как устроена база знаний

База знаний разделена на два раздела:

Vulnerabilities (уязвимости):
- Описания разных типов prompt injection.
- Как работает атака, какие паттерны в промптах её вызывают.
- Реальные примеры и сценарии.
- Ссылки на внешние исследования и материалы.
Mitigations (защиты):
- Описания конкретных подходов к защите.
- Пошаговые инструкции, как внедрять.
- Кодовые примеры интеграции.

Над этим слоем работает чат‑бот, который отвечает на вопросы по базе и отправляет пользователя к релевантным страницам — по сути, это «навигатор» по уязвимостям и защитам.

Prompt Enhancer

Отдельный модуль, который помогает превратить сырые системные промпты в более устойчивые к атакам:

Принимает текущий системный промпт.
Использует базу знаний и лучшие практики.
Перестраивает текст:
- Вводит чёткую структуру.
- Добавляет разделители, приоритеты инструкций, ограничения.
- Встраивает выбранные техники защиты на уровне промпта.

Команда подчёркивает: prompt injection — это не одна уязвимость, а постоянно растущая поверхность атаки. Поэтому архитектура платформы модульная и расширяемая: можно добавлять новые модели, новые типы атак и новые защиты без переделки всей системы.

Что это значит для вас

Для кого это вообще нужно

Платформа полезна, если вы:

Внедряете LLM в продакшн‑продукты: чат‑боты, ассистенты, агенты, системы с доступом к данным и API.
Отвечаете за безопасность таких систем, но не являетесь узким специалистом по ИБ.
Хотите не просто «надеяться на провайдера модели», а системно проверять свои промпты и пайплайны.

Если вы пишете разовый pet‑project без доступа к чувствительным данным, ценность будет ниже. Но даже там Prompt Enhancer может помочь сделать промпты менее хрупкими.

В каких задачах платформа помогает

До запуска продукта
- Прогнать череду сценариев prompt injection по вашим промптам и агентам.
- Понять, где модель:
  - раскрывает конфиденциальную информацию,
  - игнорирует системные инструкции,
  - выполняет опасные действия по запросу пользователя.
- Зафиксировать результаты и показать их стейкхолдерам в виде отчётов.
После запуска, при развитии продукта
- Каждый раз, когда вы меняете промпт, модель или логику агента, прогонять те же тесты.
- Отслеживать, как меняется устойчивость к атакам со временем.
- Интегрировать тесты в CI/CD (это заявленный вектор развития платформы).
Обучение команды
- Быстро «подтянуть» разработчиков и продакт‑менеджеров до базового уровня понимания prompt injection.
- Перевести разговор о безопасности из абстрактного уровня в конкретные кейсы и коды.

Где платформа не решит ваши проблемы

Она не заменяет полноценный аудит безопасности и не покрывает все возможные векторы атак на ИИ‑систему.
Она не исправит за вас небезопасную архитектуру, где LLM имеет прямой доступ к критичным системам без ограничений.
Она не закрывает все виды косвенных prompt injection (через файлы, сайты, сложные многошаговые сценарии) — команда честно говорит, что это в планах развития.

Доступность и Россия

Платформа строится вокруг Microsoft Foundry и интеграций с OpenAI, Anthropic и другими облачными LLM‑провайдерами. Для работы вам понадобится доступ к этим сервисам и инфраструктуре Microsoft. В России такие сервисы часто недоступны напрямую, так что в реальных условиях может потребоваться VPN и зарубежная инфраструктура.

Место на рынке

Платформа решает задачу, которую многие команды сегодня закрывают вручную:

кто‑то сам пишет набор «злых» промптов,
кто‑то использует Garak или другие фреймворки точечно,
кто‑то ведёт документацию по уязвимостям в разрозненных файлах.

Здесь всё это собрано в одном месте и завязано на Microsoft Foundry.

По сравнению с одиночными инструментами вроде NVIDIA Garak платформа даёт:

единый интерфейс для запуска как кастомных тестов, так и Garak;
базу знаний с примерами и кодом;
Prompt Enhancer для улучшения системных промптов;
поддержку нескольких LLM‑провайдеров через единый слой Foundry.

Прямых численных сравнений с другими коммерческими продуктами для безопасности LLM (по скорости, стоимости или покрытию атак) авторы не приводят. Зато они явно делают ставку на «developer‑first» подход: инструментом можно пользоваться без глубокого бэкграунда в кибербезопасности.

Если вы уже используете Microsoft Foundry и строите вокруг него свои ИИ‑системы, эта платформа логично ложится в экосистему. Если у вас другая инфраструктура, часть преимуществ теряется, и придётся оценивать, насколько вам важна именно эта связка с Foundry.

Установка / Как запустить

Авторы не приводят конкретных команд установки или готовый open‑source‑репозиторий. Из описания видно, что это веб‑платформа, развёрнутая в рамках проекта UCL IXN и интегрированная с Microsoft Foundry и NVIDIA Garak.

Чтобы внедрить похожий подход у себя, можно ориентироваться на архитектурные принципы, которые команда явно сформулировала:

Чёткое разделение слоёв: фронтенд, API, доменная логика, интеграции.
Универсальные интерфейсы для моделей, тест‑раннеров и защитных слоёв.
Поддержка нескольких LLM‑провайдеров через единый абстрактный слой.
Интеграция с фреймворком атак (например, Garak) как с отдельным тест‑раннером.

Что показали тесты и чему научилась команда

За время работы над платформой команда сделала несколько практических выводов:

Prompt injection встречается чаще, чем многие думают. Даже простые, но аккуратно составленные атаки могут заставить модель игнорировать инструкции или выдавать опасные ответы.
Без структурированного тестирования уязвимости остаются невидимыми. Ручное «пощупать промпт» не даёт покрытия реальных сценариев.
Сочетание кастомных тестов и Garak даёт лучшее покрытие. Свои промпты закрывают доменные кейсы, Garak находит неожиданные дыры.
Структурированные промпты с защитными техниками реально делают систему устойчивее. Чёткая структура, явные приоритеты инструкций и защитные паттерны снижают вероятность успешной атаки.

Из этого команда делает стратегический вывод: безопасность LLM нельзя «прикручивать в конце». Её нужно встраивать в цикл разработки наравне с функциональными тестами и практиками вроде red‑teaming.

Они также подчёркивают разрыв между разработчиками и специалистами по безопасности: первые торопятся выпускать фичи, вторые мыслят другими приоритетами. Платформа пытается закрыть этот разрыв за счёт понятной базы знаний и рабочих процессов, которыми удобно пользоваться именно разработчикам.

Куда проект будет развиваться дальше

Команда видит несколько направлений развития:

Расширение интеграций с фреймворками атак, чтобы покрывать больше техник.
Поддержка MCP‑серверов и внешних систем: инструментов, API, внешних источников данных.
Работа с косвенными prompt injection:
- загрузка файлов,
- скрейпинг сайтов,
- многошаговые сценарии и сложные агенты.
Глубокая интеграция в пайплайн разработки:
- запуск тестов в CI/CD,
- версияция и отслеживание устойчивости моделей во времени,
- тестирование не только отдельных промптов, но и целых ИИ‑систем в динамических сценариях.

Авторы открыто говорят: статические разовые проверки быстро устаревают. Им нужна платформа, которая живёт вместе с продуктом и с новыми техниками атак. Это и есть основная идея их архитектуры.

Команда

Проект сделали студенты факультета компьютерных наук UCL:

Teo Montero Bonet
Mario Mojarro Ruiz
David Thomas Garcia
Nathaniel Gibbon

При поддержке Josh McDonald из Avanade.

Платформу планируют показывать и обсуждать в Foundry Community 3 июня в 14:00 по BST: там команда разберёт реальные примеры атак и покажет, как встроить тестирование prompt injection в рабочий процесс разработки.