- Дата публикации
Miasma: как накормить AI‑скреперы «ядом» и не тратить на них сервер
Что появилось / что изменилось
Miasma — это небольшой HTTP‑сервер на Rust, который специально создаёт «ядовитый» контент для AI‑скреперов. Он не защищает сайт в классическом смысле, а превращает враждебных ботов в бесплатных нагрузочных тестировщиков.
Ключевые вещи:
- Отдаёт заведомо бесполезные, «отравленные» данные для обучения ИИ.
- Генерирует множество самоссылочных ссылок, которые ведут бота по бесконечному лабиринту страниц.
- Заявлен как очень быстрый и с минимальным потреблением памяти.
- Управляется из CLI, без сложной конфигурации.
- Устанавливается через
cargo install miasmaили скачиванием готового бинарника. - Позволяет ограничивать одновременные запросы: при 50 in‑flight соединениях память держится около 50–60 МБ.
- По умолчанию слушает порт 9999 и хост
localhost, но это меняется флагами.
По сути, это специализированный сервер-приманка: вы указываете путь вроде /bots, а всё, что туда попадает, получает только «яд».
Как это работает
Miasma запускается как самостоятельный HTTP‑сервер. Вы поднимаете его, например, на порту 9855:
miasma --link-prefix '/bots' -p 9855 -c 50
Дальше сайт перенаправляет подозрительный трафик на этот сервер через обратный прокси — в примере используется Nginx:
location ~ ^/bots($|/.*)$ {
proxy_pass http://localhost:9855;
}
Внутри страниц вы добавляете скрытые ссылки на /bots:
<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">
Amazing high quality data here!
</a>
CSS display: none, aria-hidden="true" и tabindex="1" делают ссылку невидимой для людей и скринридеров. Её должны замечать только боты, которые жадно собирают всё подряд.
Когда скрепер попадает на /bots, Miasma отдаёт страницу с:
- блоками «ядовитых» данных, подтянутых по умолчанию с
https://rnsaffn.com/poison2/; - несколькими (по умолчанию 5) ссылками, которые снова ведут на тот же сервер с префиксом
link-prefix.
Флаги управления позволяют настроить поведение:
--port(по умолчанию 9999) — порт сервера;--host(по умолчаниюlocalhost) — адрес привязки;--max-in-flight(по умолчанию 500) — лимит одновременных запросов. Всё сверх — мгновенный ответ 429, без очереди;--link-prefix(по умолчанию/) — префикс самоссылочных ссылок, например/bots;--link-count(по умолчанию 5) — сколько таких ссылок разместить на странице;--force-gzip— принудительная отдача gzip независимо отAccept-Encoding, чтобы уменьшить трафик;--poison-source— URL источника «ядовитых» данных для проксирования.
Масштаб потребления памяти напрямую зависит от max-in-flight. Если вы ставите 50, сервис держит около 50–60 МБ пиковой памяти. Никаких очередей — лишние запросы сразу получают 429.
Что это значит для вас
Miasma полезен, если у вас есть публичный сайт, и вы не хотите, чтобы содержимое массово утаскивали для обучения GPT‑5, Claude 4 и других моделей. Вместо обычного контента потенциальные скреперы будут есть бессмыслицу и уходить по бесконечным внутренним ссылкам.
Практические сценарии:
- Независимые медиа, блоги, документация. Вы можете встроить скрытые ссылки на
/botsв шаблоны и настроить прокси так, чтобы весь «левых» ботов отправлять туда. - Проекты с ограниченными ресурсами. Miasma заявлен как легковесный сервис, поэтому вам не придётся дополнительно масштабировать инфраструктуру, чтобы держать натиск скреперов.
- Разработчики и DevOps. Это ещё и инструмент наблюдения: вы можете логировать обращения к
/botsи видеть, кто и как активно сканирует сайт.
Где Miasma почти бесполезен:
- Если скреперы строго соблюдают
robots.txtи не трогают скрытые ссылки, они просто не попадут на приманку. - Если вы не готовы поддерживать Nginx/Apache/другой прокси, это добавляет операционную сложность.
Важно: авторы прямо советуют не ломать собственную SEO. В robots.txt нужно чётко закрыть путь к Miasma для поисковиков:
User-agent: Googlebot
User-agent: Bingbot
User-agent: DuckDuckBot
User-agent: Slurp
User-agent: SomeOtherNiceBot
Disallow: /bots
Allow: /
Так вы защитите Googlebot, Bingbot и прочих «хороших» роботов от попадания в ловушку.
Сервис распространяется как обычный CLI‑инструмент, без геоблокировок, так что его можно запускать и на серверах, доступных из России. VPN понадобится только если у вас есть ограничения по доступу к GitHub или внешнему источнику «poison» по HTTPS.
Место на рынке
Сегмент защиты от скреперов сейчас в основном занят классическими решениями:
- крупные CDN и WAF‑сервисы (Cloudflare, Akamai и аналоги) блокируют ботов по сигнатурам, поведенческим метрикам и капчам;
- небольшие библиотеки для Nginx/Apache ограничивают частоту запросов и фильтруют по User-Agent.
Подход Miasma другой. Она не блокирует, а кормит ботов намеренно бесполезным контентом, плюс строит бесконечный граф ссылок. Это уже не защита в лоб, а попытка испортить датасеты для обучения ИИ.
Конкретных сравнительных цифр по скорости или пропускной способности автор не приводит, но есть понятная опора:
- память прямо зависит от числа одновременных запросов (
max-in-flight), - при
-c 50вы видите 50–60 МБ пика, - лишние запросы не копятся в очередях, а мгновенно получают HTTP 429.
Если вам нужен строгий контроль доступа или SLA‑уровень безопасности, вам пригодятся Cloudflare и другие классические решения. Если вы хотите именно испортить жизнь AI‑скреперам и не тратить CPU на генерацию сложных страниц, Miasma — более узконаправленный и честный инструмент для такой задачи.