После обзора ряда сайтов я пришел к выводу, что более 80% из них пренебрегают использованием файла robots.txt. Что, на мой взгляд, является не самым оптимальным вариантом. Ведь, по своей сути, файл robots.txt - это наиболее важный способ вести успешный диалог с поисковыми роботами.
Несмотря на то, что в общепринятом стандарте в этом файле могут быть только две директивы для поисковых роботов, его использование может принести ощутимую пользу для веб-ресурса. Но для начала - небольшое введение в синтаксис.
"field:[optional_space]value[optional_space]".
Поле field является регистронезависимым.
Комментарии могут быть включены в файл в обычной для UNIX форме: символ # означает начало комментария, конец строки – конец комментария.
Запись должна начинаться с одной или нескольких строк User-Agent, следом должна быть одна или несколько строк Disallow, формат которых приведен ниже. Нераспознанные строки игнорируются.
* значением
* значением
Любая запись (record) должна состоять хотя бы из одной строки (line) User-Agent и одной – Disallow
Если файл /robots.txt пуст или не отвечает заданному формату и семантике, или его не существует, любой поисковый робот будет работать по своему алгоритму.
Возьмем для примера файл с этого сайта. На момент написания статьи он имел вид:
(номера строк в файле отсутствуют и здесь приведены для удобства обращения к ним)
01 User-Agent: *
02 Disallow: /log
03 Disallow: /post/edit/
04 Disallow: /account
05 Disallow: /new-post
06 Host: alexusblog.com
Рассмотрим этот файл по строкам:
строка 01: Поле User-Agent имеет значение * , что говорит о том, что данный блок директив применим для всех роботов;
строка 02: Поле Disallow имеет значение /log , что говорит о том, что для индексации будут запрещены все файлы и каталоги, в URL которых будет встречаться строка /log. Этой строкой я запретил для всех роботов индексацию страниц /login.html и /logout.html - действительно, зачем роботам лазить по страницам авторизации?
строки 03-05 запрещают индексацию для разделов редактирования постов, настроек аккаунта и создания нового поста. Данные разделы доступны только зарегистрированным пользователям и абсолютно не нужны поисковикам.
строка 06: Поле Host имеет значение alexusblog.com. Это поле является дополнительным и работает, насколько мне известно, только для робота Яндекса. Оно говорит боту Яндекса о том, что индексировать документы нужно только на домене alexusblog.com и помогает избежать зеркалирования Вашего ресурса на других доменах. Все остальные роботы игнорируют это поле.
Можно подумать, откуда такая параноя, и почему бы не дать возможности роботам индексировать весь сайт так, как им хочется? Есть несколько причин, почему этого делать не стоит. Первая причина - это трафик. Если Вы - Вася Пупкин, и весь сайт состоит из пары страничек с информацией о себе, Вам не о чем беспокоится. Но если Ваш ресурс имеет динамическую основу и содержит несколько десятков, а то и сотен тысяч уникальных страниц, то есть о чем подумать. Например, запретить к индексации несущественные страницы, такие, как страницы авторизации, добавления комментария (если такой функционал вынесен на отдельныю страницу) и, в идеале, все страницы с неуникальным контентом.
Например, на одном из моих проектов суточный трафик роботов с поисковика google составляет около 250Mb, что за месяц превращается в 7,5Gb - это само по себе не так уж и мало. Запрет к индексации динамической странички с предложением зарегистрироваться, чтобы просмотреть дополнительные свойства данного элемента, привел к сокращению трафика на 50Mb в сутки, что разгрузило канал за месяц аж на 1,5Gb.
Вторая причина кроется несколько глубже. Ни для кого не секрет, что за один заход робот забирает с сайта определенное количество документов. Для сайта Васи П. это не критично. Для многостраничных же ресурсов гораздо выгоднее, чтобы робот индексировал в первую очередь именно страницы с привлекательным контентом, а не с сухими предложениями о регистрации, авторизации и дополнительного финансового вливания для перехода на следующую страницу. Иначе поисковик может бесконечно долго шастать по мусорным страницам, тем самым засыпая самого себя спамом.
Эти две причины являются основными и, опираясь на них, можно сделать простой вывод: чем больше неинтересных страниц Вы запретите к индексации, тем более интересным станет Ваш ресурс в целом и тем меньше Вы заплатите за трафик. Освободившиеся же ресурсы Вы потратите как раз на удовлетворение запросов большего числа пришедших клиентов.
И в заключении, несколько полезных ссылок.
/robots.txt глазами Google
/robots.txt глазами Яндекса
Яndex: Раздел помощи. Советы вебмастеру
Что говорит о robots.txt Rambler
Что думает о robots.txt Google (думает на английском)