Дата публикации
ai_products

Miasma: как накормить AI‑скреперы «ядом» и не тратить на них сервер

Что появилось / что изменилось

Miasma — это небольшой HTTP‑сервер на Rust, который специально создаёт «ядовитый» контент для AI‑скреперов. Он не защищает сайт в классическом смысле, а превращает враждебных ботов в бесплатных нагрузочных тестировщиков.

Ключевые вещи:

  • Отдаёт заведомо бесполезные, «отравленные» данные для обучения ИИ.
  • Генерирует множество самоссылочных ссылок, которые ведут бота по бесконечному лабиринту страниц.
  • Заявлен как очень быстрый и с минимальным потреблением памяти.
  • Управляется из CLI, без сложной конфигурации.
  • Устанавливается через cargo install miasma или скачиванием готового бинарника.
  • Позволяет ограничивать одновременные запросы: при 50 in‑flight соединениях память держится около 50–60 МБ.
  • По умолчанию слушает порт 9999 и хост localhost, но это меняется флагами.

По сути, это специализированный сервер-приманка: вы указываете путь вроде /bots, а всё, что туда попадает, получает только «яд».

Как это работает

Miasma запускается как самостоятельный HTTP‑сервер. Вы поднимаете его, например, на порту 9855:

miasma --link-prefix '/bots' -p 9855 -c 50

Дальше сайт перенаправляет подозрительный трафик на этот сервер через обратный прокси — в примере используется Nginx:

location ~ ^/bots($|/.*)$ {
    proxy_pass http://localhost:9855;
}

Внутри страниц вы добавляете скрытые ссылки на /bots:

<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">
  Amazing high quality data here!
</a>

CSS display: none, aria-hidden="true" и tabindex="1" делают ссылку невидимой для людей и скринридеров. Её должны замечать только боты, которые жадно собирают всё подряд.

Когда скрепер попадает на /bots, Miasma отдаёт страницу с:

  • блоками «ядовитых» данных, подтянутых по умолчанию с https://rnsaffn.com/poison2/;
  • несколькими (по умолчанию 5) ссылками, которые снова ведут на тот же сервер с префиксом link-prefix.

Флаги управления позволяют настроить поведение:

  • --port (по умолчанию 9999) — порт сервера;
  • --host (по умолчанию localhost) — адрес привязки;
  • --max-in-flight (по умолчанию 500) — лимит одновременных запросов. Всё сверх — мгновенный ответ 429, без очереди;
  • --link-prefix (по умолчанию /) — префикс самоссылочных ссылок, например /bots;
  • --link-count (по умолчанию 5) — сколько таких ссылок разместить на странице;
  • --force-gzip — принудительная отдача gzip независимо от Accept-Encoding, чтобы уменьшить трафик;
  • --poison-source — URL источника «ядовитых» данных для проксирования.

Масштаб потребления памяти напрямую зависит от max-in-flight. Если вы ставите 50, сервис держит около 50–60 МБ пиковой памяти. Никаких очередей — лишние запросы сразу получают 429.

Что это значит для вас

Miasma полезен, если у вас есть публичный сайт, и вы не хотите, чтобы содержимое массово утаскивали для обучения GPT‑5, Claude 4 и других моделей. Вместо обычного контента потенциальные скреперы будут есть бессмыслицу и уходить по бесконечным внутренним ссылкам.

Практические сценарии:

  • Независимые медиа, блоги, документация. Вы можете встроить скрытые ссылки на /bots в шаблоны и настроить прокси так, чтобы весь «левых» ботов отправлять туда.
  • Проекты с ограниченными ресурсами. Miasma заявлен как легковесный сервис, поэтому вам не придётся дополнительно масштабировать инфраструктуру, чтобы держать натиск скреперов.
  • Разработчики и DevOps. Это ещё и инструмент наблюдения: вы можете логировать обращения к /bots и видеть, кто и как активно сканирует сайт.

Где Miasma почти бесполезен:

  • Если скреперы строго соблюдают robots.txt и не трогают скрытые ссылки, они просто не попадут на приманку.
  • Если вы не готовы поддерживать Nginx/Apache/другой прокси, это добавляет операционную сложность.

Важно: авторы прямо советуют не ломать собственную SEO. В robots.txt нужно чётко закрыть путь к Miasma для поисковиков:

User-agent: Googlebot
User-agent: Bingbot
User-agent: DuckDuckBot
User-agent: Slurp
User-agent: SomeOtherNiceBot
Disallow: /bots
Allow: /

Так вы защитите Googlebot, Bingbot и прочих «хороших» роботов от попадания в ловушку.

Сервис распространяется как обычный CLI‑инструмент, без геоблокировок, так что его можно запускать и на серверах, доступных из России. VPN понадобится только если у вас есть ограничения по доступу к GitHub или внешнему источнику «poison» по HTTPS.

Место на рынке

Сегмент защиты от скреперов сейчас в основном занят классическими решениями:

  • крупные CDN и WAF‑сервисы (Cloudflare, Akamai и аналоги) блокируют ботов по сигнатурам, поведенческим метрикам и капчам;
  • небольшие библиотеки для Nginx/Apache ограничивают частоту запросов и фильтруют по User-Agent.

Подход Miasma другой. Она не блокирует, а кормит ботов намеренно бесполезным контентом, плюс строит бесконечный граф ссылок. Это уже не защита в лоб, а попытка испортить датасеты для обучения ИИ.

Конкретных сравнительных цифр по скорости или пропускной способности автор не приводит, но есть понятная опора:

  • память прямо зависит от числа одновременных запросов (max-in-flight),
  • при -c 50 вы видите 50–60 МБ пика,
  • лишние запросы не копятся в очередях, а мгновенно получают HTTP 429.

Если вам нужен строгий контроль доступа или SLA‑уровень безопасности, вам пригодятся Cloudflare и другие классические решения. Если вы хотите именно испортить жизнь AI‑скреперам и не тратить CPU на генерацию сложных страниц, Miasma — более узконаправленный и честный инструмент для такой задачи.


Читайте также

Miasma: как накормить AI‑скреперы «ядом» и не тратить на них сервер — VogueTech | VogueTech