Поисковой бот либо краулер (от англ. crawler) - программа, являющаяся составной частью поисковой машины, которая обходит странички Веба, закачивает ее и заносит в базу поисковика. По собственной сущности краулер больше всего припоминает обыденный браузер. Он сканирует содержимое странички, забрасывает его на сервер поисковой системы, которой принадлежит, и отчаливает по ссылкам на последующие странички. Глубина проникания поискового бота вовнутрь веб-сайта традиционно ограничена. Нередко веб-мастера сталкиваются с вопросцем о юзер-агенте (User-agent) роботов той либо другой поисковой машины. Зная значения User-agent для поисковых роботов, можно запретить, или напротив, открыть доступ тому либо иному боту. К примеру, последующими строчками мы запрещаем всем ботам регистрировать контент, не считая бота AdSense. User-agent: * Disallow: / User-agent: Mediapartners-Google Disallow: В данной статье собраны главные индексирующие боты поисковых машин. Поисковые боты Yandex'а (Yandex) (Информация взята из хелпа Yandex'а) User-agent для Yandex'а: Yandex - Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий бот Yandex'а. - Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок. - Yandex/1.01.001 (compatible; Win16; H) — бот, определяющий зеркала веб-сайтов. - Yandex/1.02.000 (compatible; Win16; F) — бот, индексирующий пиктограммы веб-сайтов (favicons) - Yandex/1.03.003 (compatible; Win16; D) — бот, обращающийся к страничке при добавлении ее через форму «Добавить URL» - Yandex/1.03.000 (compatible; Win16; M) — бот, обращающийся при открытии странички по ссылке «Найденные слова» - YaDirectBot/1.0 (compatible; Win16; I) — бот, индексирующий странички веб-сайтов, участвующих в Маркетинговой сети Yandex'а - YandexBlog/0.99.101 (compatible; DOS3.30,B) – бот, индексирующий xml-файлы для поиска по блогам. - YandexSomething/1.0 – бот, индексирующий новостные потоки партнеров Яндекс-Новостей. - Bond, James Bond (version 0.07) — бот официально никогда не упоминался. Прогуливается выборочно по страничкам. Referer не передает. Картинки не загружает. Предположительно, бот занимается проверкой веб-сайтов на нарушения – клоакинг и т.д. Айпишника ботов Yandex'а Айпишников, с которых «ходит» бот Yandex'а, много, и они могут изменяться. Перечень адресов не разглашается. Не считая ботов у Yandex'а есть несколько агентов-«простукивалок» (так именуемые “дятлы“) , определяющих доступность веб-сайта либо документа, по ссылке в соответственном сервисе. - Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Yandex.Каталога. Ежели веб-сайт недоступен в течение пары дней, он снимается с публикации. Как веб-сайт начинает отвечать, он автоматом возникает в Каталоге. - Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Yandex.Закладок. Ссылки на недоступные веб-сайты помечаются сероватым цветом. - Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Yandex.Директа. Она инспектирует правильность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается. - Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Yandex.Новостей. Она сформировывает отчет для контент-менеджера, который оценивает масштаб заморочек и, по мере необходимости, связывается с партнером. Поисковые боты Гугл (Google) User-agent для Гугла: Googlebot - Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.гугл.com/bot.html) - бот Гугл, соображающий протокол HTTP 1.1. - Mediapartners-Google - поисковой боты AdSens - Googlebot-Image (Гугл) Googlebot-Image/1.0 - Индексатор картинок - Гугл Search Appliance (Гугл) gsa-crawler - поисковой бот аппаратного поисковика Search Appliance Поисковые боты Rambler (Рамблер) User-agent для Рамблера: StackRambler Поисковая машина Рамблер имеет только бота, Айпишник которого может лежать в пределах интервала 81.19.64.0 - 81.19.66.255 - StackRambler/2.0 (MSIE incompatible) - StackRambler/2.0 Поисковые боты Яху User-agent для Яху: Slurp либо Яху! Slurp - Mozilla/5.0 (compatible; Яху! Slurp; http://help.яху.com/help/us/ysearch/slurp) - обычный поисковой бот. - Mozilla/5.0 (compatible; Яху! Slurp/3.0; http://help.яху.com/help/us/ysearch/slurp) - новейший поисковой бот Яху 3-го поколения, работает также как и предшествующий. Поисковые боты MSN User-agent для MSN: MSNBot - msnbot/1.1 (+http://search.msn.com/msnbot.htm) - основной индексирующий бот MSN. - msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) - бот поиска по изображениям. - msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) - бот поиска по изображениям. - msnbot-news (+http://search.msn.com/msnbot.htm) - новостной бот. Поисковые боты Alexa User-agent для Alexa: ia_archiver - ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com) - индексирующий бот Alexa, ему мы должны попаданием в web.archive.org
|