Разработчики с открытым исходным кодом борются с AI-crawlers

Многие разработчики программного обеспечения считают, что AI-боты — это тараканы интернета. Некоторые разработчики начали давать отпор наивными, часто юмористическими способами.

Хотя любой веб-сайт может подвергнуться атаке вредоносных программ-сканеров, которая иногда приводит к закрытию сайта ^[1] , разработчики ПО с открытым исходным кодом страдают «непропорционально» сильно, пишет ^[2] Никколо Венеранди, разработчик настольного Linux-приложения Plasma и владелец блога LibreNews.

По своей природе сайты, на которых размещаются бесплатные проекты с открытым исходным кодом (FOSS), предоставляют большую часть своей инфраструктуры публично, а также, как правило, располагают меньшим количеством ресурсов, чем коммерческие продукты.

Проблема в том, что многие боты на основе искусственного интеллекта ^[3] не соблюдают файл robot.txt протокола исключения роботов — инструмента, который сообщает ботам, что не следует сканировать, изначально созданного для ботов поисковых систем.

В сообщении блога ^[4] «крик о помощи» в январе разработчик FOSS Xe Iaso описал, как AmazonBot неустанно бил по веб-сайту сервера Git, что приводило к сбоям DDoS. Серверы Git размещают проекты FOSS, так что любой желающий может загрузить код или внести в него свой вклад.

Но этот бот проигнорировал robot.txt Ясо, спрятался за другими IP-адресами и выдал себя за других пользователей, сказал Ясо.

«Блокировать роботов-искателей на основе AI бесполезно, потому что они лгут, меняют своего агента пользователя, используют резидентные IP-адреса в качестве прокси-серверов и многое другое», — посетовал Ясо.

«Они будут скрейпить ваш сайт, пока он не упадет, а затем они будут скрейпить его еще немного. Они будут нажимать на каждую ссылку на каждой ссылке на каждой ссылке, просматривая одни и те же страницы снова и снова, снова и снова. Некоторые из них даже будут нажимать на одну и ту же ссылку несколько раз в одну и ту же секунду», — написал разработчик в посте.

Поэтому Ясо ответил хитростью, создав инструмент под названием Анубис. Anubis — это проверка доказательства работы обратного прокси ^[5] , которая должна быть пройдена, прежде чем запросы будут допущены к серверу Git. Он блокирует ботов, но пропускает браузеры, управляемые людьми.

Самое смешное: Анубис — имя бога в египетской мифологии, который ведёт мёртвых на суд. «Анубис взвешивал твою душу (сердце), и если оно было тяжелее перышка, твое сердце съедалось, и ты умирал», — сказал Ясо TechCrunch. Если веб-запрос проходит испытание и определяется как человек, милая аниме-картинка ^[6] объявляет об успехе. Рисунок — это «мой взгляд на антропоморфизацию Анубиса», — говорит Ясо. Если это бот, запрос отклоняется.

Проект с ироничным названием распространился как ветер среди сообщества FOSS. Iaso поделился им на GitHub ^[7] 19 марта, и всего за несколько дней он собрал 2000 звезд, 20 участников и 39 форков.

Разработчики с открытым исходным кодом борются с AI-crawlers - 2

Мгновенная популярность Анубиса показывает, что боль ^[8] Ясо не уникальна. На самом деле Венеранди делился историей за историей. Генеральный директор SourceHut Дрю ДеВолт рассказал, что ^[9] тратил «от 20 до 100% своего времени в неделю на борьбу с чрезмерно агрессивными крупномасштабными сканерами LLM» и «сталкивался с десятками кратковременных сбоев в неделю». Джонатан Корбет, известный разработчик FOSS, который руководит новостным сайтом Linux-индустрии LWN, предупредил, что его сайт замедляется из-за трафика уровня DDoS ^[10] «со стороны ботов-скрейперов с искусственным интеллектом». Кевин Фензи, системный администратор огромного проекта Linux Fedora, сказал, что AI-боты-скрейперы ^[11] стали настолько агрессивными, что ему пришлось заблокировать доступ к ним для всей Бразилии.

Венеранди рассказал TechCrunch, что знает о нескольких других проектах, испытывающих те же проблемы. Один из них «в какой-то момент был вынужден временно забанить все китайские IP-адреса». Давайте на мгновение задумаемся: разработчикам «даже приходится прибегать к запрету целых стран», чтобы просто отбиться от ботов с искусственным интеллектом, которые игнорируют файлы robot.txt, говорит Венеранди.

Помимо оценки души веб-клиента, другие разработчики считают, что месть — лучшая защита. Несколько дней назад на Hacker News ^[12] пользователь xyzal ^[13] предложил загрузить запрещенные страницы robot.txt с «кучей статей о пользе употребления отбеливателя» или «статьями о положительном влиянии заражения корью на работоспособность в постели».

«Думаю, нам нужно стремиться к тому, чтобы боты получали отрицательную ценность от посещения наших ловушек, а не просто нулевую ценность», — пояснил xyzal.

Так уж получилось, что в январе анонимный создатель, известный как «Аарон», выпустил инструмент под названием Nepenthes ^[14] , который нацелен именно на это. Он заманивает краулеров в бесконечный лабиринт фейкового контента, и разработчик признался Ars Technica, ^[15] что эта цель агрессивна, если не откровенно вредоносна. Инструмент назван в честь плотоядного растения.

А Cloudflare, возможно, крупнейший коммерческий игрок, предлагающий несколько инструментов для защиты от AI-роботов, на прошлой неделе выпустил аналогичный инструмент под названием AI Labyrinth.

Он предназначен для «замедления, запутывания и траты ресурсов AI Crawlers и других ботов, которые не соблюдают директивы «no crawl», — описала Cloudflare в своем сообщении в блоге ^[16] . Cloudflare заявила, что скармливает некорректно работающим AI Crawlers «нерелевантный контент вместо того, чтобы извлекать данные вашего законного веб-сайта».

ДеВолт из SourceHut рассказал TechCrunch, что «у Nepenthes есть удовлетворительное чувство справедливости, поскольку он скармливает гусеницам чушь и отравляет их колодцы, но в конечном итоге Anubis — это решение, которое сработало» для его сайта.

Но ДеВолт также выступил с публичным, искренним призывом к более прямому исправлению: «Пожалуйста, прекратите легитимизировать LLM или генераторы изображений AI или GitHub Copilot или любой другой мусор. Я умоляю вас прекратить их использовать, прекратить говорить о них, прекратить создавать новые, просто прекратите».

Источник ^[17]

Автор: dilnaz_04

Источник ^[18]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13657

URLs in this post:

[1] иногда приводит к закрытию сайта: https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/

[2] пишет: https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/

[3] интеллекта: http://www.braintools.ru/article/7605

[4] В сообщении блога: https://xeiaso.net/notes/2025/amazon-crawler/

[5] проверка доказательства работы обратного прокси: https://xeiaso.net/blog/2025/anubis/

[6] милая аниме-картинка: https://git.xeserv.us/xe/anubis-test/src/branch/main/README.md

[7] поделился им на GitHub: https://github.com/TecharoHQ/anubis/tree/main?tab=readme-ov-file

[8] боль: http://www.braintools.ru/article/9901

[9] SourceHut Дрю ДеВолт рассказал, что: https://drewdevault.com/2025/03/17/2025-03-17-Stop-externalizing-your-costs-on-me.html

[10] замедляется из-за трафика уровня DDoS: https://mastodon.social/@AndresFreundTec/113868582630760229

[11] сказал, что AI-боты-скрейперы: https://www.scrye.com/blogs/nirik/posts/2025/03/15/mid-march-infra-bits-2025/

[12] Hacker News: https://news.ycombinator.com/item?id=43422413

[13] xyzal: https://news.ycombinator.com/item?id=43432682

[14] Nepenthes: https://go.skimresources.com/?id=111346X1569483&xs=1&url=https://zadzmo.org/code/nepenthes/&xcust=2-1-2592071-1-0-0-0-0&sref=https://www.pcworld.com/article/2592071/one-rebels-malicious-tar-pit-trap-is-driving-ai-scrapers-insane.html

[15] Ars Technica,: https://arstechnica.com/tech-policy/2025/01/ai-haters-build-tarpits-to-trap-and-trick-ai-scrapers-that-ignore-robots-txt/

[16] в своем сообщении в блоге: https://blog.cloudflare.com/ai-labyrinth/

[17] Источник: https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/

[18] Источник: https://habr.com/ru/companies/bothub/news/895318/?utm_source=habrahabr&utm_medium=rss&utm_campaign=895318

Нажмите здесь для печати.