Управление индексацией сайта при помощи файла robots.txt - Статьи вебмастеру - YouScripT.ucoz.ru

Youscript

Шаблоны для ucoz [203]

Скрипты для ucoz [55]

Иконки для ucoz [20]

Софт вебмастеру [28]

Статьи вебмастеру [100]

Другое [9]

Для заработка на са... (0)

Заработок без вложе... (0)

Лучшее онлайн казин... (0)

Работа на дому. Про... (1)

Финансовая Взаимопо... (0)

wyvern.su (0)

Играть и зарабатыва... (0)

Экономическая игра ... (0)

seosprint серфинг т... (0)

Инвест-Проект. Приб... (0)

Меняем права пользо...

новая видео страниц...

Вид материалов desi...

Как сделать сплог в...

Бан от поисковых си...

PCwarez скачать

Вид материалов блог...

Dream_(Greene)

Красивый "Диза...

Шаблон сайта "...

Главная » Файлы » Статьи вебмастеру

Управление индексацией сайта при помощи файла robots.txt

Ссылки на материал \| Автор: denis	16.04.2010, 19:13
Вступление Поисковые боты (либо спайдеры, пауки, поисковые системы и т.д.) повсевременно шарят по интернет-страницам, обрабатывая, содержащуюся на их информацию. Вебмастер может управлять поведением поисковиков на собственном веб-сайте 2-мя методами: с помощью мета-тегов, или файла robots.txt. Разглядим подробнее 2-ой метод. Общие сведения robots.txt - особенный файл (поточнее, это - обыденный текстовый файл с расширением txt, но составленный особенным образом), лежащий в корневой директории веб-сайта (к примеру, ежели веб-сайт имеет адресок http://filosofia.ru/, то файл robots.txt должен находиться по адресу: [url]http://filosofia.ru/robots.txt)[/url]. Обратите внимание: название файла и расширение нужно писать в нижнем регистре! Хоть какой поисковик, заходя на какой-нибудь веб-сайт, сначала, проверит наличие и содержимое файла robots.txt (сможете поглядеть логи собственного сервера и убедиться как нередко запрашивается этот файл). И, уже исходя из приобретенной инфы, будет осуществлять свою дальнейшую деятельность на этом веб-сайте. На одном веб-сайте быть может только один файл robots.txt. Ежели бот не находит файл исключений для поисковых ботов, то он действует на веб-сайте по собственному собственному методу (делает что желает :-)). Формат записи файла robots.txt В файле robots.txt указывается: какому боту и что Не нужно регистрировать на сервере. Вообщем, записи в этом файле составлены из пары групп инструкций, а проще говоря - блоков (разделяемых пустой строчкой), любой из которых предназначен для 1-го либо пары ботов. Заглавие бота указывается в первой строке блока (параметр User-agent, его наличие в robots.txt непременно): User-agent: robot1 robot2 robot3, где: robot1, robot2 и robot3 - наименования поисковых ботов. К примеру: User-agent: WebCrawler Lycos StackRambler Видите ли, наименования поисковых ботов время от времени различаются от заглавий поисковых машин (в нашем примере: бота поисковой машины Rambler "зовут" StackRambler). Почти всегда, но, писать наименования ботов не требуется. Довольно просто написать: User-agent: , тут символ "" значит, что запись относится ко всем ботам (в файле быть может только одна таковая строчка). Дальше идет 2-ая строчка: Disallow: путь, где: путь - часть URI, который запрещено посещать боту. Можно указывать на сто процентов либо отчасти (хоть какой URI, начинающийся с указанного значения боту посещать запрещено). Для каждого объекта, запрещенного к индексации необходимо писать отдельный Dissallow. Обратите внимание: указываются не абсолютные, а относительные пути. К примеру: Disallow: /topsecret/ - запрещает доступ к директории с таковым именованием, но не запрещает файлы с таковым именованием, т.е. файл topsecret.html будет проиндексирован, а все файлы в директории /topsecret/ - нет. Disallow: /privat - запрещает доступ как к директориям с таковым именованием, так и к файлам. Disallow: /folder/file.htm - запрещает доступ к определенному файлу в определенной директории. Из примера видно, что для каждого объекта, запрещенного к индексированию, записывается отдельная строчка Disallow. Пустое значение параметра Disallow значит, что все URL могут загружаться. В файле robots.txt должен быть, по последней мере, один параметр Disallow. Параметр Disallow постоянно относится только к предшествующему параметру User-agent, потому для каждого параметра User-agent необходимо задавать свои характеристики Disallow. Примеры записи файлов Проще всего осознать синтаксис файла robots.txt и научиться хорошо его применять можно на определенных примерах. Ниже приведены примеры пары обычных записей в этот файл. Пример 1. # robots.txt file for http://dengi.filosofia.ru/ # contact webmaster@filosofia.ru for critics User-agent: StackRambler Googlebot Disallow: User-agent: * Disallow: /tmp/ Disallow: /logs/ Значок # значит комментарий. Комменты лучше писать на отдельной строке. В этом примере всем ботам запрещается посещать директории tmp и logs, и только ботам StackRambler и Googlebot разрешено посещать все. Пример 2. # I hate search engines! User-agent: * Disallow: / В этом примере всем ботам запрещена неважно какая деятельность на веб-сайте. Пример 3. User-agent: * Disallow: /private/letters/ # This is top secret directory. Disallow: /cgi-bin/ Disallow: /anektods.html В этом примере всем ботам запрещается посещать странички, находящиеся в директориях /private/letters/ и /cgi-bin/, а так же файл anektods.html. Пример 4. User-agent: * Disallow: Это самый обычный вариант. Всем ботам можно обрабатывать любые документы на сервере. Трудности сохранности Внедрение на собственном веб-сайте файла robots.txt хранит в для себя потенциальную опасность. Вы сможете пострадать от действий злоумышленников. Ежели кто-то наберет в адресной строке броузера конкретно адресок этого файла, ему станет понятно, какие сборники и файлы админ пробует скрыть от сторонних глаз. Потом можно в строке броузера набирать прямой путь к сиим "скрытым объектам" и расслабленно их видеть. Это именуется "темный ход". Как защитить информацию от сторонних? Самое очевидное - не располагать ее на общедоступных ресурсах. Ежели это вправду принципиальная информация, для чего выкладывать ее в глобальную Сеть? Ежели же информацию все-же нужно выложить, используйте в заголовках документов мета-тег "robots". И установите соответствующую систему аутентификации. Скачивать могут только пользователи сайта [ Регистрация \| Вход ]
1 2 3 4 5 Сказать спасибо! \| Категория: Статьи вебмастеру \| Добавил: denis \| Теги: Управление индексацией сайта при по
Просмотров: 675 \| Загрузок: 0 \| Рейтинг: 0.0/0

Здравствуйте.Материал "Управление индексацией сайта при помощи файла robots.txt" расположен на нашем сайте, если вы обладаете какими либо правами на него, то вы можете связаться с администрацией сайта и материал будет удален.Скачивая "Управление индексацией сайта при помощи файла robots.txt" вы обязуетесь удалить его после 24 часов после ознакомления с ним.Администрация сайта не несет какой либо ответственности за данный материал

Всего комментариев: 0

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Пятница
07.02.2025
12:09
Гость

Гость

Полезные видео уроки
Школа ремонта

[ Кто on-line? ]
[ Кто нас сегодня посетил ][ Участники ]

Онлайн всего: 1

Гостей: 1

Пользователей: 0