Заметки интернет-разработчика

В процессе мониторинга статистики разных сайтов, накопился список ботов, паразитирующих на сайтах. Постоянно ходят, что-то выкачивают, создают ненужный трафик, нагружают сервер, засоряют лог файл, вносят погрешность в статистику и другие паразитные проявления. Перед использованием списка, проверьте, возможно в нем находится так необходимый вам робот, например, Yahoo или или msnbot. Трафика они не дают, но возможно у вас будет иначе.
При обращении к сайту одного из приведенных ботов, ему будет показана страница 403.php находящаяся в корне. Список необхдимо добавлять в файл .htaccess, необходима поддержка mod_rewrite. Если у вас есть что добавить - оставляйте в комментариях.

RewriteEngine On
RewriteCond %{REQUEST_URI} !^/403.php$
RewriteCond %{HTTP_USER_AGENT} .*Ask\sJeeves.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HP\sWeb\sPrintSmart.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*IDBot.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Indy\sLibrary.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ListChecker.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*MSIECrawler.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetCache.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Nutch.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*RPT-HTTPClient.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*rulinki\.ru.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Twiceler.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebAlta.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Webster\sPro.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*www\.cys\.ru.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Wysigot.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Yahoo!\sSlurp.* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Yeti.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Accoona.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^bot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^CazoodleBot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^CFNetwork.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ConveraCrawler.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\sMaster.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^FAST\sMetaWeb\sCrawler.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Flexum\sspider$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Gigabot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTMLParser.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ichiro.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^IRLbot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Java.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^km\.ru\sbot$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^kmSearchBot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^libwww-perl.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Lupa\.ru.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^LWP::Simple.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^lwp-trivial.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Missigua.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/5\.0$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^msnbot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^msnbot-media.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\sExplorer.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^OmniExplorer_Bot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^PEAR.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^psbot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Python.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^rulinki\.ru.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^SMILE.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Speedy.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\sPro.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^TurtleScanner.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^User-Agent.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^voyager.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Webalta.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebData.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Yandex$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^yandex.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Yanga.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Yeti.*
RewriteRule .* /403.php [F]

Комментарии (1) »

  1. Ограничение доступа к сайту | Блогнот, 2008-08-31 @ 21:49

    [...] блокировкой известных User-Agent при помощи htaccess. Вот список некоторых из них. Но это защита только от новичков, [...]

Оставить комментарий

Комментарии модерируются

Имя: (Обязательно)

E-mail: (Обязательно)

URL:

Comment:

Page generated in 0.0345 seconds with 11 queries (0.0264 seconds of sql)