Поисковые боты (либо спайдеры, пауки, поисковые системы и т.д.) повсевременно шарят по интернет-страницам, обрабатывая, содержащуюся на их информацию. Вебмастер может управлять поведением поисковиков на собственном веб-сайте 2-мя методами: с помощью мета-тегов, или файла robots.txt. Разглядим подробнее 2-ой метод.
Общие сведения
robots.txt - особенный файл (поточнее, это - обыденный текстовый файл с расширением txt, но составленный особенным образом), лежащий в корневой директории веб-сайта (к примеру, ежели веб-сайт имеет адресок http://filosofia.ru/, то файл robots.txt должен находиться по адресу: [url]http://filosofia.ru/robots.txt)[/url]. Обратите внимание: название файла и расширение нужно писать в нижнем регистре! Хоть какой поисковик, заходя на какой-нибудь веб-сайт, сначала, проверит наличие и содержимое файла robots.txt (сможете поглядеть логи собственного сервера и убедиться как нередко запрашивается этот файл). И, уже исходя из приобретенной инфы, будет осуществлять свою дальнейшую деятельность на этом веб-сайте. На одном веб-сайте быть может только один файл robots.txt. Ежели бот не находит файл исключений для поисковых ботов, то он действует на веб-сайте по собственному собственному методу (делает что желает :-)).
Формат записи файла robots.txt
В файле robots.txt указывается: какому боту и что Не нужно регистрировать на сервере. Вообщем, записи в этом файле составлены из пары групп инструкций, а проще говоря - блоков (разделяемых пустой строчкой), любой из которых предназначен для 1-го либо пары ботов. Заглавие бота указывается в первой строке блока (параметр User-agent, его наличие в robots.txt непременно):
User-agent: robot1 robot2 robot3, где:
robot1, robot2 и robot3 - наименования поисковых ботов. К примеру:
User-agent: WebCrawler Lycos StackRambler
Видите ли, наименования поисковых ботов время от времени различаются от заглавий поисковых машин (в нашем примере: бота поисковой машины Rambler "зовут" StackRambler). Почти всегда, но, писать наименования ботов не требуется. Довольно просто написать:
User-agent: *, тут символ "*" значит, что запись относится ко всем ботам (в файле быть может только одна таковая строчка).
Дальше идет 2-ая строчка:
Disallow: путь, где:
путь - часть URI, который запрещено посещать боту. Можно указывать на сто процентов либо отчасти (хоть какой URI, начинающийся с указанного значения боту посещать запрещено). Для каждого объекта, запрещенного к индексации необходимо писать отдельный Dissallow.
Обратите внимание: указываются не абсолютные, а относительные пути.
К примеру:
Disallow: /topsecret/ - запрещает доступ к директории с таковым именованием, но не запрещает файлы с таковым именованием, т.е. файл topsecret.html будет проиндексирован, а все файлы в директории /topsecret/ - нет.
Disallow: /privat - запрещает доступ как к директориям с таковым именованием, так и к файлам.
Disallow: /folder/file.htm - запрещает доступ к определенному файлу в определенной директории.
Из примера видно, что для каждого объекта, запрещенного к индексированию, записывается отдельная строчка Disallow. Пустое значение параметра Disallow значит, что все URL могут загружаться. В файле robots.txt должен быть, по последней мере, один параметр Disallow. Параметр Disallow постоянно относится только к предшествующему параметру User-agent, потому для каждого параметра User-agent необходимо задавать свои характеристики Disallow.
Примеры записи файлов
Проще всего осознать синтаксис файла robots.txt и научиться хорошо его применять можно на определенных примерах. Ниже приведены примеры пары обычных записей в этот файл.
Пример 1.
# robots.txt file for http://dengi.filosofia.ru/ # contact webmaster@filosofia.ru for critics
User-agent: StackRambler Googlebot Disallow:
User-agent: * Disallow: /tmp/ Disallow: /logs/
Значок # значит комментарий. Комменты лучше писать на отдельной строке.
В этом примере всем ботам запрещается посещать директории tmp и logs, и только ботам StackRambler и Googlebot разрешено посещать все.
Пример 2.
# I hate search engines!
User-agent: * Disallow: /
В этом примере всем ботам запрещена неважно какая деятельность на веб-сайте.
Пример 3.
User-agent: * Disallow: /private/letters/ # This is top secret directory. Disallow: /cgi-bin/ Disallow: /anektods.html
В этом примере всем ботам запрещается посещать странички, находящиеся в директориях /private/letters/ и /cgi-bin/, а так же файл anektods.html.
Пример 4.
User-agent: * Disallow:
Это самый обычный вариант. Всем ботам можно обрабатывать любые документы на сервере.
Трудности сохранности
Внедрение на собственном веб-сайте файла robots.txt хранит в для себя потенциальную опасность. Вы сможете пострадать от действий злоумышленников. Ежели кто-то наберет в адресной строке броузера конкретно адресок этого файла, ему станет понятно, какие сборники и файлы админ пробует скрыть от сторонних глаз. Потом можно в строке броузера набирать прямой путь к сиим "скрытым объектам" и расслабленно их видеть. Это именуется "темный ход".
Как защитить информацию от сторонних? Самое очевидное - не располагать ее на общедоступных ресурсах. Ежели это вправду принципиальная информация, для чего выкладывать ее в глобальную Сеть? Ежели же информацию все-же нужно выложить, используйте в заголовках документов мета-тег "robots". И установите соответствующую систему аутентификации.
Здравствуйте.Материал "Управление индексацией сайта при помощи файла robots.txt" расположен на нашем сайте, если вы обладаете какими либо правами на него, то вы можете связаться с администрацией сайта и материал будет удален.Скачивая "Управление индексацией сайта при помощи файла robots.txt" вы обязуетесь удалить его после 24 часов после ознакомления с ним.Администрация сайта не несет какой либо ответственности за данный материал
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи. [ Регистрация | Вход ]