Управляя роботами

19 Aug, 2004

Роботы (их еще называют спайдерами) — минипрограмки, которые путешествуют по инету и индексируют наши странички, то есть дают знать поисковикам, что на них есть. И потом мы можем приносить пользу людям, которые что-то ищут. Даже на моём "молодом" блоге большая часть так называемых referrer'ов (мест где есть на меня ссылка) это поиски через Google. А на больших блогах их еще больше.

О поисковых роботах знают многие, и все рады когда они приходят. Но почему-то мало кто помогает им. Да и вообще на половине сайтов их игнорируют и не знают что можно управлять ими.
Специально для управления роботами предусмотрено два способа:

  • Можно хранить небольшой текстовый файл "robots.txt" на вашем сервере со списком правил для роботов.
  • Использовать META тэг.

robots.txt

Что бы поисковики нашли его (этот файл) он должен быть доступен по адресу "/robots.txt" .
Это обычный текстовый файл, содержащий одну или больше записей каждая на своей строке. Для комментариев используют символ "#".
Вот здесь, детально описано как он формируется. А я приведу лишь несколько примеров :
Пример запрещающий роботам посещение страниц начинающихся с "/cyberworld/map/" или "/tmp/", или /foo.html:

# robots.txt for http://www.example.com/
User-agent: *
Disallow: /cyberworld/map/ # в этой папке слишком много URL
Disallow: /tmp/ # а эту папку скоро удалят
Disallow: /foo.html

А этот файл запрещает всем роботам кроме "cybermapper" посещение URL начинающихся с "/cyberworld/map/" :

# robots.txt for http://www.example.com/
User-agent: *
Disallow: /cyberworld/map/ # слишком много  URL  в этой папке
# Cybermapper knows where to go.
User-agent: cybermapper
Disallow:

Можно и вообще запретить роботам посещать свой сайт, вот так :

# go away
User-agent: *
Disallow: /

<meta name="robots" ...

Куда ставить?

Как и все метаданные его надо поместить в HEAD HTML документа :

<html>
<head>
<meta name="robots" content="noindex,nofollow" />
<meta name="description" content="This page ...." />
<title>...
</head>
<body>
...

Какие значения

Этот тэг должен содержать значения разделенные запятой. Вот так :

<meta name="robots" content="index,follow" />
<meta name="robots" content="noindex,follow" />

Причем нельзя задавать заведомо конфликтные значения, типа :

<meta name="robots" content="INDEX,NOINDEX" />

INDEX (NOINDEX) — отвечает за то, будет ли индексироваться эта страничка.
FOLLOW (NOFOLLOW) — будет ли поисковик идти по ссылкам с нашего сайта дальше.

Например если у нас страничка часто обновляется, то может сложится ситуация неудобная для пользователя. Например поисковик пришел на страничку, проиндексировал её. Однако через час вы изменили информацию. Когда пользователь перейдет по ссылке с поисковика он уже не найдет нужной ему информации, и просто потеряет время.

Выходом из подобной ситуации может послужить такая директива :

<meta name="robots" content="noindex, follow" />

Теперь роботы не будут индексировать эту страницу, но будут переходить по ссылкам с неё, то есть индексироваться будет только постоянный контент. Здесь читать про META.

Еще по теме :

3 комментариев к “Управляя роботами”

1.plaha | 15 Feb, 2007
хорошая статья
2.Лев | 27 Aug, 2007
Хорошая информация. Спасибо автору за нее!
3.Вадим | 27 Sep, 2007
Наконец то нашел нормальную инфу про robots.txt! Спасибо!