- Дата публикации
Microsoft и UCL сделали платформу, которая тестирует ИИ на prompt injection вместо вас
Что нового
Команда студентов UCL вместе с Avanade и Microsoft построила полноценную платформу для тестирования LLM на prompt injection. Она работает поверх Microsoft Foundry и сочетает три вещи в одном месте:
-
Платформа для тестирования prompt injection:
- Подключает ваши LLM‑эндпоинты через HTTP.
- Работает с несколькими провайдерами моделей через Microsoft Foundry.
- Поддерживает кастомные системные промпты и «слои» защитных техник.
- Запускает как ваши собственные тесты, так и автоматические атаки через NVIDIA Garak.
- Показывает результаты и оценку риска, позволяет выгружать отчёты и базу знаний в PDF.
-
Структурированная база знаний по prompt injection:
- Каталог типов атак с описаниями, примерами и ссылками на внешние источники.
- Каталог техник защиты с описаниями и кодовыми примерами внедрения.
- Встроенный чат‑бот, который отвечает на вопросы по этим данным и ведёт к нужным страницам.
-
Инструмент "Prompt Enhancer":
- Принимает ваш текущий системный промпт.
- На основе базы знаний переписывает его более структурированно и безопасно.
- Добавляет выбранные защитные техники на уровне промпта (разделители, иерархия инструкций и т.п.).
Платформа родилась из индустриального проекта UCL IXN и нацелена не на узких специалистов по кибербезопасности, а именно на разработчиков, которые уже встраивают GPT‑подобные модели и агентов в продукты.
Цифр по скорости, стоимости запросов или лимитам контекста авторы не приводят — платформа работает поверх уже существующих LLM‑провайдеров, а не заменяет их.
Как это работает
Платформа построена как модульная система из четырёх слоёв:
-
Frontend
- Веб‑интерфейс, где разработчик:
- Просматривает базу знаний по атакам и защитам.
- Подключает модели и настраивает промпты.
- Собирает и запускает тесты на prompt injection.
- Смотрит результаты сканов и аналитику уязвимостей.
- Веб‑интерфейс, где разработчик:
-
API‑слой (оркестрация)
- Принимает запросы с фронтенда: создать тест, запустить скан, запросить список моделей и доступных защит.
- Отдаёт фронтенду актуальные конфигурации и тестовые результаты.
- Автоматически «подхватывает» новые модели и техники защиты, добавленные в систему, без ручного обновления интерфейса.
-
Domain‑слой (ядро логики)
- Описывает интерфейсы для ключевых сущностей: моделей, защитных слоёв (mitigations), тест‑раннеров.
- Определяет структуру тестов, формат данных, правила согласованности.
- Здесь живут правила, по которым система понимает, что такое уязвимость, сценарий атаки и результат.
-
Integration‑слой
- Реализует конкретные интеграции:
- Подключение к OpenAI, Anthropic и другим LLM через HTTP‑эндпоинты.
- Интеграцию с NVIDIA Garak для автоматизированного «красного тиминга».
- Доступ к базе данных и репозиториям, где хранятся тесты, результаты и база знаний.
- Реализует конкретные интеграции:
Как устроено тестирование
Разработчик:
- Подключает модель (через Foundry или свой HTTP‑эндпоинт).
- Настраивает системный промпт и, при желании, защитные слои.
- Выбирает или создаёт набор тестов:
- Таргетированные промпты под свою предметную область.
- Наборы атак из базы знаний.
- Автоматические сценарии из Garak.
- Запускает скан.
Платформа:
- Отправляет атаки на модель.
- Фиксирует ответы, классифицирует их как безопасные/опасные.
- Оценивает риск и показывает, какие техники защиты сработали, а какие — нет.
Как устроена база знаний
База знаний разделена на два раздела:
-
Vulnerabilities (уязвимости):
- Описания разных типов prompt injection.
- Как работает атака, какие паттерны в промптах её вызывают.
- Реальные примеры и сценарии.
- Ссылки на внешние исследования и материалы.
-
Mitigations (защиты):
- Описания конкретных подходов к защите.
- Пошаговые инструкции, как внедрять.
- Кодовые примеры интеграции.
Над этим слоем работает чат‑бот, который отвечает на вопросы по базе и отправляет пользователя к релевантным страницам — по сути, это «навигатор» по уязвимостям и защитам.
Prompt Enhancer
Отдельный модуль, который помогает превратить сырые системные промпты в более устойчивые к атакам:
- Принимает текущий системный промпт.
- Использует базу знаний и лучшие практики.
- Перестраивает текст:
- Вводит чёткую структуру.
- Добавляет разделители, приоритеты инструкций, ограничения.
- Встраивает выбранные техники защиты на уровне промпта.
Команда подчёркивает: prompt injection — это не одна уязвимость, а постоянно растущая поверхность атаки. Поэтому архитектура платформы модульная и расширяемая: можно добавлять новые модели, новые типы атак и новые защиты без переделки всей системы.
Что это значит для вас
Для кого это вообще нужно
Платформа полезна, если вы:
- Внедряете LLM в продакшн‑продукты: чат‑боты, ассистенты, агенты, системы с доступом к данным и API.
- Отвечаете за безопасность таких систем, но не являетесь узким специалистом по ИБ.
- Хотите не просто «надеяться на провайдера модели», а системно проверять свои промпты и пайплайны.
Если вы пишете разовый pet‑project без доступа к чувствительным данным, ценность будет ниже. Но даже там Prompt Enhancer может помочь сделать промпты менее хрупкими.
В каких задачах платформа помогает
-
До запуска продукта
- Прогнать череду сценариев prompt injection по вашим промптам и агентам.
- Понять, где модель:
- раскрывает конфиденциальную информацию,
- игнорирует системные инструкции,
- выполняет опасные действия по запросу пользователя.
- Зафиксировать результаты и показать их стейкхолдерам в виде отчётов.
-
После запуска, при развитии продукта
- Каждый раз, когда вы меняете промпт, модель или логику агента, прогонять те же тесты.
- Отслеживать, как меняется устойчивость к атакам со временем.
- Интегрировать тесты в CI/CD (это заявленный вектор развития платформы).
-
Обучение команды
- Быстро «подтянуть» разработчиков и продакт‑менеджеров до базового уровня понимания prompt injection.
- Перевести разговор о безопасности из абстрактного уровня в конкретные кейсы и коды.
Где платформа не решит ваши проблемы
- Она не заменяет полноценный аудит безопасности и не покрывает все возможные векторы атак на ИИ‑систему.
- Она не исправит за вас небезопасную архитектуру, где LLM имеет прямой доступ к критичным системам без ограничений.
- Она не закрывает все виды косвенных prompt injection (через файлы, сайты, сложные многошаговые сценарии) — команда честно говорит, что это в планах развития.
Доступность и Россия
Платформа строится вокруг Microsoft Foundry и интеграций с OpenAI, Anthropic и другими облачными LLM‑провайдерами. Для работы вам понадобится доступ к этим сервисам и инфраструктуре Microsoft. В России такие сервисы часто недоступны напрямую, так что в реальных условиях может потребоваться VPN и зарубежная инфраструктура.
Место на рынке
Платформа решает задачу, которую многие команды сегодня закрывают вручную:
- кто‑то сам пишет набор «злых» промптов,
- кто‑то использует Garak или другие фреймворки точечно,
- кто‑то ведёт документацию по уязвимостям в разрозненных файлах.
Здесь всё это собрано в одном месте и завязано на Microsoft Foundry.
По сравнению с одиночными инструментами вроде NVIDIA Garak платформа даёт:
- единый интерфейс для запуска как кастомных тестов, так и Garak;
- базу знаний с примерами и кодом;
- Prompt Enhancer для улучшения системных промптов;
- поддержку нескольких LLM‑провайдеров через единый слой Foundry.
Прямых численных сравнений с другими коммерческими продуктами для безопасности LLM (по скорости, стоимости или покрытию атак) авторы не приводят. Зато они явно делают ставку на «developer‑first» подход: инструментом можно пользоваться без глубокого бэкграунда в кибербезопасности.
Если вы уже используете Microsoft Foundry и строите вокруг него свои ИИ‑системы, эта платформа логично ложится в экосистему. Если у вас другая инфраструктура, часть преимуществ теряется, и придётся оценивать, насколько вам важна именно эта связка с Foundry.
Установка / Как запустить
Авторы не приводят конкретных команд установки или готовый open‑source‑репозиторий. Из описания видно, что это веб‑платформа, развёрнутая в рамках проекта UCL IXN и интегрированная с Microsoft Foundry и NVIDIA Garak.
Чтобы внедрить похожий подход у себя, можно ориентироваться на архитектурные принципы, которые команда явно сформулировала:
- Чёткое разделение слоёв: фронтенд, API, доменная логика, интеграции.
- Универсальные интерфейсы для моделей, тест‑раннеров и защитных слоёв.
- Поддержка нескольких LLM‑провайдеров через единый абстрактный слой.
- Интеграция с фреймворком атак (например, Garak) как с отдельным тест‑раннером.
Что показали тесты и чему научилась команда
За время работы над платформой команда сделала несколько практических выводов:
-
Prompt injection встречается чаще, чем многие думают. Даже простые, но аккуратно составленные атаки могут заставить модель игнорировать инструкции или выдавать опасные ответы.
-
Без структурированного тестирования уязвимости остаются невидимыми. Ручное «пощупать промпт» не даёт покрытия реальных сценариев.
-
Сочетание кастомных тестов и Garak даёт лучшее покрытие. Свои промпты закрывают доменные кейсы, Garak находит неожиданные дыры.
-
Структурированные промпты с защитными техниками реально делают систему устойчивее. Чёткая структура, явные приоритеты инструкций и защитные паттерны снижают вероятность успешной атаки.
Из этого команда делает стратегический вывод: безопасность LLM нельзя «прикручивать в конце». Её нужно встраивать в цикл разработки наравне с функциональными тестами и практиками вроде red‑teaming.
Они также подчёркивают разрыв между разработчиками и специалистами по безопасности: первые торопятся выпускать фичи, вторые мыслят другими приоритетами. Платформа пытается закрыть этот разрыв за счёт понятной базы знаний и рабочих процессов, которыми удобно пользоваться именно разработчикам.
Куда проект будет развиваться дальше
Команда видит несколько направлений развития:
- Расширение интеграций с фреймворками атак, чтобы покрывать больше техник.
- Поддержка MCP‑серверов и внешних систем: инструментов, API, внешних источников данных.
- Работа с косвенными prompt injection:
- загрузка файлов,
- скрейпинг сайтов,
- многошаговые сценарии и сложные агенты.
- Глубокая интеграция в пайплайн разработки:
- запуск тестов в CI/CD,
- версияция и отслеживание устойчивости моделей во времени,
- тестирование не только отдельных промптов, но и целых ИИ‑систем в динамических сценариях.
Авторы открыто говорят: статические разовые проверки быстро устаревают. Им нужна платформа, которая живёт вместе с продуктом и с новыми техниками атак. Это и есть основная идея их архитектуры.
Команда
Проект сделали студенты факультета компьютерных наук UCL:
- Teo Montero Bonet
- Mario Mojarro Ruiz
- David Thomas Garcia
- Nathaniel Gibbon
При поддержке Josh McDonald из Avanade.
Платформу планируют показывать и обсуждать в Foundry Community 3 июня в 14:00 по BST: там команда разберёт реальные примеры атак и покажет, как встроить тестирование prompt injection в рабочий процесс разработки.