Дата публикации
ai_products

Microsoft и UCL сделали платформу, которая тестирует ИИ на prompt injection вместо вас

Что нового

Команда студентов UCL вместе с Avanade и Microsoft построила полноценную платформу для тестирования LLM на prompt injection. Она работает поверх Microsoft Foundry и сочетает три вещи в одном месте:

  1. Платформа для тестирования prompt injection:

    • Подключает ваши LLM‑эндпоинты через HTTP.
    • Работает с несколькими провайдерами моделей через Microsoft Foundry.
    • Поддерживает кастомные системные промпты и «слои» защитных техник.
    • Запускает как ваши собственные тесты, так и автоматические атаки через NVIDIA Garak.
    • Показывает результаты и оценку риска, позволяет выгружать отчёты и базу знаний в PDF.
  2. Структурированная база знаний по prompt injection:

    • Каталог типов атак с описаниями, примерами и ссылками на внешние источники.
    • Каталог техник защиты с описаниями и кодовыми примерами внедрения.
    • Встроенный чат‑бот, который отвечает на вопросы по этим данным и ведёт к нужным страницам.
  3. Инструмент "Prompt Enhancer":

    • Принимает ваш текущий системный промпт.
    • На основе базы знаний переписывает его более структурированно и безопасно.
    • Добавляет выбранные защитные техники на уровне промпта (разделители, иерархия инструкций и т.п.).

Платформа родилась из индустриального проекта UCL IXN и нацелена не на узких специалистов по кибербезопасности, а именно на разработчиков, которые уже встраивают GPT‑подобные модели и агентов в продукты.

Цифр по скорости, стоимости запросов или лимитам контекста авторы не приводят — платформа работает поверх уже существующих LLM‑провайдеров, а не заменяет их.

Как это работает

Платформа построена как модульная система из четырёх слоёв:

  1. Frontend

    • Веб‑интерфейс, где разработчик:
      • Просматривает базу знаний по атакам и защитам.
      • Подключает модели и настраивает промпты.
      • Собирает и запускает тесты на prompt injection.
      • Смотрит результаты сканов и аналитику уязвимостей.
  2. API‑слой (оркестрация)

    • Принимает запросы с фронтенда: создать тест, запустить скан, запросить список моделей и доступных защит.
    • Отдаёт фронтенду актуальные конфигурации и тестовые результаты.
    • Автоматически «подхватывает» новые модели и техники защиты, добавленные в систему, без ручного обновления интерфейса.
  3. Domain‑слой (ядро логики)

    • Описывает интерфейсы для ключевых сущностей: моделей, защитных слоёв (mitigations), тест‑раннеров.
    • Определяет структуру тестов, формат данных, правила согласованности.
    • Здесь живут правила, по которым система понимает, что такое уязвимость, сценарий атаки и результат.
  4. Integration‑слой

    • Реализует конкретные интеграции:
      • Подключение к OpenAI, Anthropic и другим LLM через HTTP‑эндпоинты.
      • Интеграцию с NVIDIA Garak для автоматизированного «красного тиминга».
      • Доступ к базе данных и репозиториям, где хранятся тесты, результаты и база знаний.

Как устроено тестирование

Разработчик:

  1. Подключает модель (через Foundry или свой HTTP‑эндпоинт).
  2. Настраивает системный промпт и, при желании, защитные слои.
  3. Выбирает или создаёт набор тестов:
    • Таргетированные промпты под свою предметную область.
    • Наборы атак из базы знаний.
    • Автоматические сценарии из Garak.
  4. Запускает скан.

Платформа:

  • Отправляет атаки на модель.
  • Фиксирует ответы, классифицирует их как безопасные/опасные.
  • Оценивает риск и показывает, какие техники защиты сработали, а какие — нет.

Как устроена база знаний

База знаний разделена на два раздела:

  • Vulnerabilities (уязвимости):

    • Описания разных типов prompt injection.
    • Как работает атака, какие паттерны в промптах её вызывают.
    • Реальные примеры и сценарии.
    • Ссылки на внешние исследования и материалы.
  • Mitigations (защиты):

    • Описания конкретных подходов к защите.
    • Пошаговые инструкции, как внедрять.
    • Кодовые примеры интеграции.

Над этим слоем работает чат‑бот, который отвечает на вопросы по базе и отправляет пользователя к релевантным страницам — по сути, это «навигатор» по уязвимостям и защитам.

Prompt Enhancer

Отдельный модуль, который помогает превратить сырые системные промпты в более устойчивые к атакам:

  1. Принимает текущий системный промпт.
  2. Использует базу знаний и лучшие практики.
  3. Перестраивает текст:
    • Вводит чёткую структуру.
    • Добавляет разделители, приоритеты инструкций, ограничения.
    • Встраивает выбранные техники защиты на уровне промпта.

Команда подчёркивает: prompt injection — это не одна уязвимость, а постоянно растущая поверхность атаки. Поэтому архитектура платформы модульная и расширяемая: можно добавлять новые модели, новые типы атак и новые защиты без переделки всей системы.

Что это значит для вас

Для кого это вообще нужно

Платформа полезна, если вы:

  • Внедряете LLM в продакшн‑продукты: чат‑боты, ассистенты, агенты, системы с доступом к данным и API.
  • Отвечаете за безопасность таких систем, но не являетесь узким специалистом по ИБ.
  • Хотите не просто «надеяться на провайдера модели», а системно проверять свои промпты и пайплайны.

Если вы пишете разовый pet‑project без доступа к чувствительным данным, ценность будет ниже. Но даже там Prompt Enhancer может помочь сделать промпты менее хрупкими.

В каких задачах платформа помогает

  1. До запуска продукта

    • Прогнать череду сценариев prompt injection по вашим промптам и агентам.
    • Понять, где модель:
      • раскрывает конфиденциальную информацию,
      • игнорирует системные инструкции,
      • выполняет опасные действия по запросу пользователя.
    • Зафиксировать результаты и показать их стейкхолдерам в виде отчётов.
  2. После запуска, при развитии продукта

    • Каждый раз, когда вы меняете промпт, модель или логику агента, прогонять те же тесты.
    • Отслеживать, как меняется устойчивость к атакам со временем.
    • Интегрировать тесты в CI/CD (это заявленный вектор развития платформы).
  3. Обучение команды

    • Быстро «подтянуть» разработчиков и продакт‑менеджеров до базового уровня понимания prompt injection.
    • Перевести разговор о безопасности из абстрактного уровня в конкретные кейсы и коды.

Где платформа не решит ваши проблемы

  • Она не заменяет полноценный аудит безопасности и не покрывает все возможные векторы атак на ИИ‑систему.
  • Она не исправит за вас небезопасную архитектуру, где LLM имеет прямой доступ к критичным системам без ограничений.
  • Она не закрывает все виды косвенных prompt injection (через файлы, сайты, сложные многошаговые сценарии) — команда честно говорит, что это в планах развития.

Доступность и Россия

Платформа строится вокруг Microsoft Foundry и интеграций с OpenAI, Anthropic и другими облачными LLM‑провайдерами. Для работы вам понадобится доступ к этим сервисам и инфраструктуре Microsoft. В России такие сервисы часто недоступны напрямую, так что в реальных условиях может потребоваться VPN и зарубежная инфраструктура.

Место на рынке

Платформа решает задачу, которую многие команды сегодня закрывают вручную:

  • кто‑то сам пишет набор «злых» промптов,
  • кто‑то использует Garak или другие фреймворки точечно,
  • кто‑то ведёт документацию по уязвимостям в разрозненных файлах.

Здесь всё это собрано в одном месте и завязано на Microsoft Foundry.

По сравнению с одиночными инструментами вроде NVIDIA Garak платформа даёт:

  • единый интерфейс для запуска как кастомных тестов, так и Garak;
  • базу знаний с примерами и кодом;
  • Prompt Enhancer для улучшения системных промптов;
  • поддержку нескольких LLM‑провайдеров через единый слой Foundry.

Прямых численных сравнений с другими коммерческими продуктами для безопасности LLM (по скорости, стоимости или покрытию атак) авторы не приводят. Зато они явно делают ставку на «developer‑first» подход: инструментом можно пользоваться без глубокого бэкграунда в кибербезопасности.

Если вы уже используете Microsoft Foundry и строите вокруг него свои ИИ‑системы, эта платформа логично ложится в экосистему. Если у вас другая инфраструктура, часть преимуществ теряется, и придётся оценивать, насколько вам важна именно эта связка с Foundry.

Установка / Как запустить

Авторы не приводят конкретных команд установки или готовый open‑source‑репозиторий. Из описания видно, что это веб‑платформа, развёрнутая в рамках проекта UCL IXN и интегрированная с Microsoft Foundry и NVIDIA Garak.

Чтобы внедрить похожий подход у себя, можно ориентироваться на архитектурные принципы, которые команда явно сформулировала:

  • Чёткое разделение слоёв: фронтенд, API, доменная логика, интеграции.
  • Универсальные интерфейсы для моделей, тест‑раннеров и защитных слоёв.
  • Поддержка нескольких LLM‑провайдеров через единый абстрактный слой.
  • Интеграция с фреймворком атак (например, Garak) как с отдельным тест‑раннером.

Что показали тесты и чему научилась команда

За время работы над платформой команда сделала несколько практических выводов:

  • Prompt injection встречается чаще, чем многие думают. Даже простые, но аккуратно составленные атаки могут заставить модель игнорировать инструкции или выдавать опасные ответы.

  • Без структурированного тестирования уязвимости остаются невидимыми. Ручное «пощупать промпт» не даёт покрытия реальных сценариев.

  • Сочетание кастомных тестов и Garak даёт лучшее покрытие. Свои промпты закрывают доменные кейсы, Garak находит неожиданные дыры.

  • Структурированные промпты с защитными техниками реально делают систему устойчивее. Чёткая структура, явные приоритеты инструкций и защитные паттерны снижают вероятность успешной атаки.

Из этого команда делает стратегический вывод: безопасность LLM нельзя «прикручивать в конце». Её нужно встраивать в цикл разработки наравне с функциональными тестами и практиками вроде red‑teaming.

Они также подчёркивают разрыв между разработчиками и специалистами по безопасности: первые торопятся выпускать фичи, вторые мыслят другими приоритетами. Платформа пытается закрыть этот разрыв за счёт понятной базы знаний и рабочих процессов, которыми удобно пользоваться именно разработчикам.

Куда проект будет развиваться дальше

Команда видит несколько направлений развития:

  • Расширение интеграций с фреймворками атак, чтобы покрывать больше техник.
  • Поддержка MCP‑серверов и внешних систем: инструментов, API, внешних источников данных.
  • Работа с косвенными prompt injection:
    • загрузка файлов,
    • скрейпинг сайтов,
    • многошаговые сценарии и сложные агенты.
  • Глубокая интеграция в пайплайн разработки:
    • запуск тестов в CI/CD,
    • версияция и отслеживание устойчивости моделей во времени,
    • тестирование не только отдельных промптов, но и целых ИИ‑систем в динамических сценариях.

Авторы открыто говорят: статические разовые проверки быстро устаревают. Им нужна платформа, которая живёт вместе с продуктом и с новыми техниками атак. Это и есть основная идея их архитектуры.

Команда

Проект сделали студенты факультета компьютерных наук UCL:

  • Teo Montero Bonet
  • Mario Mojarro Ruiz
  • David Thomas Garcia
  • Nathaniel Gibbon

При поддержке Josh McDonald из Avanade.

Платформу планируют показывать и обсуждать в Foundry Community 3 июня в 14:00 по BST: там команда разберёт реальные примеры атак и покажет, как встроить тестирование prompt injection в рабочий процесс разработки.


Читайте также