- BrainTools - https://www.braintools.ru -
Исследователи в последнее время отмечают всплеск активности генеративных ботов-скрейперов. По последним данным, так называемые «серые боты» всё чаще нацеливаются на веб-приложения.
В недавнем отчёте компании Barracuda сообщается о заметном увеличении числа ботов на базе искусственного интеллекта [1], которые агрессивно собирают данные, поступающие в реальном времени.
С декабря 2024 по февраль 2025 года веб-приложения получали миллионы запросов от генеративных ИИ-ботов вроде ClaudeBot и Bytespider от TikTok.
С декабря 2024 по февраль 2025 года веб-приложения получали миллионы запросов от генеративных ИИ-ботов вроде ClaudeBot и Bytespider от TikTok.
В течение 30 дней одно отслеживаемое веб-приложение зарегистрировало около 9,7 миллионов запросов ботов, другое же получило более чем 500 000 запросов ботов всего за один день.
В отличие от обычных ботов с их скачкообразным уровнем активности, генеративные боты-скрейперы обеспечивают стабильный объём трафика.
Хотя «серые» боты не подпадают под категорию вредоносов, они могут негативно влиять на работу приложений.
Агрессивный скрейпинг может:
– перегружать трафик, нарушая нормальную работу веб-приложений;
– извлекать и использовать защищённые авторским правом данные;
– искажать аналитику веб-сайта, влияя впоследствии на принятие бизнес-решений;
– увеличивать расходы на облачный хостинг из-за повышенной загрузки на ЦП и увеличенного трафика.
Самые «продуктивные» генеративные боты-скрейперы в начале 2025 года — это ClaudeBot и Bytespider.
ClaudeBot от Anthropic собирает данные для обучения [2] своей генеративной модели ИИ Claude. Несмотря на агрессивный скрейпинг, Anthropic предоставляет информацию о том, как заблокировать его активность.
Bytespider — бот-скрейпер от TikTok. Собирает данные для улучшения своих рекомендательных алгоритмов и рекламных возможностей. Согласно отчётам, механизм работы Bytespider непрозрачен, и потому оценить его воздействие на веб-приложения весьма трудно.
Поскольку «серые» боты стали неотъемлемой частью онлайн-трафика, компании должны принимать упреждающие меры, чтобы минимизировать их воздействие на работу веб-приложений. Одним из популярных методов является внедрение инструмента robots.txt. Он сигнализирует скрейперам о необходимости избегать сбора данных с сайта. Однако этот метод не имеет юридической силы, и многие боты его игнорируют.
Для более эффективной защиты компании обращаются к системе защиты от ботов на базе ИИ. Она используют машинное обучение для обнаружения и блокировки активности скрейперов в режиме реального времени.
Поскольку дебаты об этических, правовых и коммерческих последствиях использования ботов-скрейперов на базе всё ещё продолжаются и законов, ограничивающих работу ботов пока нет, компаниям следует уделять первостепенное внимание [3] безопасности, чтобы защитить свои данные.
Ссылка на источник: https://www.infosecurity-magazine.com/news/gray-bots-generative-ai-scraper/ [4]
Автор: RadioCaroline
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13838
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] обучения: http://www.braintools.ru/article/5125
[3] внимание: http://www.braintools.ru/article/7595
[4] https://www.infosecurity-magazine.com/news/gray-bots-generative-ai-scraper/: https://www.infosecurity-magazine.com/news/gray-bots-generative-ai-scraper/
[5] Источник: https://habr.com/ru/news/896948/?utm_source=habrahabr&utm_medium=rss&utm_campaign=896948
Нажмите здесь для печати.