Youscript
 
Шаблоны для ucoz [203]
Скрипты для ucoz [55]
Иконки для ucoz [20]
Софт вебмастеру [28]
Статьи вебмастеру [100]
Другое [9]
 

Главная » Файлы » Статьи вебмастеру

Управление индексацией сайта при помощи файла robots.txt
16.04.2010, 19:13

Вступление

Поисковые боты (либо спайдеры, пауки, поисковые системы и т.д.) повсевременно шарят по интернет-страницам, обрабатывая, содержащуюся на их информацию. Вебмастер может управлять поведением поисковиков на собственном веб-сайте 2-мя методами: с помощью мета-тегов, или файла robots.txt. Разглядим подробнее 2-ой метод.

Общие сведения

robots.txt - особенный файл (поточнее, это - обыденный текстовый файл с расширением txt, но составленный особенным образом), лежащий в корневой директории веб-сайта (к примеру, ежели веб-сайт имеет адресок http://filosofia.ru/, то файл robots.txt должен находиться по адресу: [url]http://filosofia.ru/robots.txt)[/url]. Обратите внимание: название файла и расширение нужно писать в нижнем регистре! Хоть какой поисковик, заходя на какой-нибудь веб-сайт, сначала, проверит наличие и содержимое файла robots.txt (сможете поглядеть логи собственного сервера и убедиться как нередко запрашивается этот файл). И, уже исходя из приобретенной инфы, будет осуществлять свою дальнейшую деятельность на этом веб-сайте. На одном веб-сайте быть может только один файл robots.txt. Ежели бот не находит файл исключений для поисковых ботов, то он действует на веб-сайте по собственному собственному методу (делает что желает :-)).

Формат записи файла robots.txt

В файле robots.txt указывается: какому боту и что Не нужно регистрировать на сервере. Вообщем, записи в этом файле составлены из пары групп инструкций, а проще говоря - блоков (разделяемых пустой строчкой), любой из которых предназначен для 1-го либо пары ботов. Заглавие бота указывается в первой строке блока (параметр User-agent, его наличие в robots.txt непременно):

User-agent: robot1 robot2 robot3, где:

robot1, robot2 и robot3 - наименования поисковых ботов. К примеру:

User-agent: WebCrawler Lycos StackRambler

Видите ли, наименования поисковых ботов время от времени различаются от заглавий поисковых машин (в нашем примере: бота поисковой машины Rambler "зовут" StackRambler). Почти всегда, но, писать наименования ботов не требуется. Довольно просто написать:

User-agent: *, тут символ "*" значит, что запись относится ко всем ботам (в файле быть может только одна таковая строчка).

Дальше идет 2-ая строчка:

Disallow: путь, где:

путь - часть URI, который запрещено посещать боту. Можно указывать на сто процентов либо отчасти (хоть какой URI, начинающийся с указанного значения боту посещать запрещено). Для каждого объекта, запрещенного к индексации необходимо писать отдельный Dissallow.

Обратите внимание: указываются не абсолютные, а относительные пути.

К примеру:

Disallow: /topsecret/ - запрещает доступ к директории с таковым именованием, но не запрещает файлы с таковым именованием, т.е. файл topsecret.html будет проиндексирован, а все файлы в директории /topsecret/ - нет.

Disallow: /privat - запрещает доступ как к директориям с таковым именованием, так и к файлам.

Disallow: /folder/file.htm - запрещает доступ к определенному файлу в определенной директории.

Из примера видно, что для каждого объекта, запрещенного к индексированию, записывается отдельная строчка Disallow. Пустое значение параметра Disallow значит, что все URL могут загружаться. В файле robots.txt должен быть, по последней мере, один параметр Disallow. Параметр Disallow постоянно относится только к предшествующему параметру User-agent, потому для каждого параметра User-agent необходимо задавать свои характеристики Disallow.

Примеры записи файлов

Проще всего осознать синтаксис файла robots.txt и научиться хорошо его применять можно на определенных примерах. Ниже приведены примеры пары обычных записей в этот файл.

Пример 1.

# robots.txt file for http://dengi.filosofia.ru/
# contact webmaster@filosofia.ru for critics

User-agent: StackRambler Googlebot
Disallow:

User-agent: *
Disallow: /tmp/
Disallow: /logs/

Значок # значит комментарий. Комменты лучше писать на отдельной строке.

В этом примере всем ботам запрещается посещать директории tmp и logs, и только ботам StackRambler и Googlebot разрешено посещать все.

Пример 2.

# I hate search engines!

User-agent: *
Disallow: /

В этом примере всем ботам запрещена неважно какая деятельность на веб-сайте.

Пример 3.

User-agent: *
Disallow: /private/letters/
# This is top secret directory.
Disallow: /cgi-bin/
Disallow: /anektods.html

В этом примере всем ботам запрещается посещать странички, находящиеся в директориях /private/letters/ и /cgi-bin/, а так же файл anektods.html.

Пример 4.

User-agent: *
Disallow:

Это самый обычный вариант. Всем ботам можно обрабатывать любые документы на сервере.

Трудности сохранности

Внедрение на собственном веб-сайте файла robots.txt хранит в для себя потенциальную опасность. Вы сможете пострадать от действий злоумышленников. Ежели кто-то наберет в адресной строке броузера конкретно адресок этого файла, ему станет понятно, какие сборники и файлы админ пробует скрыть от сторонних глаз. Потом можно в строке броузера набирать прямой путь к сиим "скрытым объектам" и расслабленно их видеть. Это именуется "темный ход".

Как защитить информацию от сторонних? Самое очевидное - не располагать ее на общедоступных ресурсах. Ежели это вправду принципиальная информация, для чего выкладывать ее в глобальную Сеть? Ежели же информацию все-же нужно выложить, используйте в заголовках документов мета-тег "robots". И установите соответствующую систему аутентификации.



Скачивать могут только пользователи сайта
[ Регистрация | Вход ]
Сказать спасибо! | Категория: Статьи вебмастеру | Добавил: denis | Теги: Управление индексацией сайта при по
Просмотров: 634 | Загрузок: 0 | Рейтинг: 0.0/0


Здравствуйте.Материал "Управление индексацией сайта при помощи файла robots.txt" расположен на нашем сайте, если вы обладаете какими либо правами на него, то вы можете связаться с администрацией сайта и материал будет удален.Скачивая "Управление индексацией сайта при помощи файла robots.txt" вы обязуетесь удалить его после 24 часов после ознакомления с ним.Администрация сайта не несет какой либо ответственности за данный материал

Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Четверг
28.03.2024
13:01




Полезные видео уроки
Школа ремонта
[ Кто on-line? ]
[ Кто нас сегодня посетил ]
Участники ]
Онлайн всего: 1
Гостей: 1
Пользователей: 0
Вы вебмастер
Всего ответов: 34