robots.txt: укрощаем поисковых роботов


Любой сайт ежедневно посещается роботами поисковых систем, задача которых ― найти новые или обновленные с момента последнего обхода страницы сайта и добавить их в поисковой индекс ради того, чтобы пользователи могли найти их по соответствующему запросу к поисковой системе. Разные роботы, правда, придерживаются разных тактик деятельности. Google и Яндекс, к примеру, весьма экономно относятся к ресурсам сервера, на котором размещается индексируемый ими сайт, METASpider (бот украинской поисковой системы «МЕТА») же посещает сайт набегами: на сайт заходит несколько десятков ботов с разными IP-адресами, которые за несколько часов просматривают все страницы и на некоторое время отступают.

Есть еще интересный робот Mail.Ru, который, как я понимаю, индексирует лишь те сайты, ссылки на которые имеются в каталоге. Такой вывод я сделал на основании того, что им посещается лишь один изо всех наших проектов, который в каталог занесен. Этот бот, как правило, приходит один, но делает достаточно большое количество запросов сразу, благодаря чему регулярно попадает в банлист, откуда мне его приходится удалять по крайней мере раз в месяц. Блокировать его нельзя ни в коем случае, так как если он не сможет зайти на сайт, то ссылка на него в скором времени будет удалена из каталога Mail.Ru как мертвая, о чем администратор сайта будет немедленно оповещен электронным письмом. Уместным, однако, будет внести следующую запись в файл robots.txt:

User-agent: Mail.Ru
Crawl-delay: 10

«10» ― это время в секундах, которое должно пройти прежде, чем робот направит на сервер следующий запрос. Этот параметр можно увеличить, но я бы не рекомендовал задавать слишком большую паузу. Аналогичную директиву можно установить и для METASpider'а:

User-agent: METASpider
Crawl-delay: 10

Кроме этого, «META» понимает только сайты, написанные на русском, украинском или английском языках, поэтому если у Вас есть разделы на других языках, доступ к ним можно спокойно закрыть для экономии ресурсов (армянская версия нашего сайта, например, в выдаче «МЕТА» выглядит как сплошные вопросительные знаки; также не воспринимается почему-то знак тире, который в заголовках и описании превращается в вопросительный знак и тем самым несколько перекручивает смысл написанного).

Google и Яндекс, как я уже писал, не особо достают сервер своими запросами, поэтому для них ограничений во времени можно спокойно не объявлять, равно, как и для бота поисковой системы Bing. На некоторых сайтах почему-то рекомендуют блокировать доступ боту китайской поисковой системы Baidu. Если, конечно, у Вас ограничен трафик, то это вполне логично, но если ограничений по трафику нет, то я в этом не вижу смысла, так как робот посещает сайт очень осторожно (никогда не видел, чтобы он сделал к какому-нибудь из наших проектов более сотни запросов в сутки). Бывает еще некий робот Ezooms, о предназначении которого мне ничего неизвестно, но ходит на сайт он достаточно часто. Директивы robots.txt он игнорирует, поэтому советую заблокировать через .htaccess весь блок IP-адресов (а блоков таких четыре штуки), с которых происходит эта сомнительная деятельность.

Также советую обязательно добавить в robots.txt запись Host. Многие сайты доступны сразу по двум адресам: domain.com и www.domain.com. У некоторых есть еще www2.domain.com, domain.net и т.п. Поисковые системы, не смотря на то, что контент сайтов совершенно одинаков, будут воспринимать сайты как совершенно различные. Из-за этого рейтинг будет начисляться для каждого такого домена по-отдельности и каждый из них будет представлен в выдаче. Следует выбрать главный домен, например, www.domain.com, который и прописать в директиве Host:

Host: www.domain.com

Обратите внимание, никаких слешей и http/https, только сам домен. После того, как эта запись появится, поисковые роботы по-прежнему будут индексировать все домены, но в поисковой выдаче будет представлен лишь главный, а кроме того Google PR для всех этих доменов склеится.

Не лишним будет и указать адрес карты сайта для поисковых систем, если оная имеется. Как правило, она расположена по адресу domain.com/sitemap.xml, но может иметь и другой адрес, который непременно следует указать в директиве Sitemap:

Sitemap: http://www.domain.com/sitemap.xml

Вот здесь уже, в отличие от Host, указывается протокол.

Я также хотел написать и об Allow/Disallow, но случайно нашел очень полезную страничку в справке Mail.Ru, на которой все ясно и понятно описано. Вот она.


11.05.2012, 16:40
  robots.txt, Baidu, Google, Яндекс, МЕТА, Mail.Ru, поисковые системы, роботы.
Просмотров: 2607.
9