Управляя роботами

19 Aug, 2004

Роботы (их еще называют спайдерами) — минипрограмки, которые путешествуют по инету и индексируют наши странички, то есть дают знать поисковикам, что на них есть. И потом мы можем приносить пользу людям, которые что-то ищут. Даже на моём "молодом" блоге большая часть так называемых referrer'ов (мест где есть на меня ссылка) это поиски через Google. А на больших блогах их еще больше.

О поисковых роботах знают многие, и все рады когда они приходят. Но почему-то мало кто помогает им. Да и вообще на половине сайтов их игнорируют и не знают что можно управлять ими.
Специально для управления роботами предусмотрено два способа:

Можно хранить небольшой текстовый файл "robots.txt" на вашем сервере со списком правил для роботов.
Использовать META тэг.

robots.txt

Что бы поисковики нашли его (этот файл) он должен быть доступен по адресу "/robots.txt" .
Это обычный текстовый файл, содержащий одну или больше записей каждая на своей строке. Для комментариев используют символ "#".
Вот здесь, детально описано как он формируется. А я приведу лишь несколько примеров :
Пример запрещающий роботам посещение страниц начинающихся с "/cyberworld/map/" или "/tmp/", или /foo.html:

# robots.txt for http://www.example.com/
User-agent: *
Disallow: /cyberworld/map/ # в этой папке слишком много URL
Disallow: /tmp/ # а эту папку скоро удалят
Disallow: /foo.html

А этот файл запрещает всем роботам кроме "cybermapper" посещение URL начинающихся с "/cyberworld/map/" :

# robots.txt for http://www.example.com/
User-agent: *
Disallow: /cyberworld/map/ # слишком много  URL  в этой папке
# Cybermapper knows where to go.
User-agent: cybermapper
Disallow:

Можно и вообще запретить роботам посещать свой сайт, вот так :

# go away
User-agent: *
Disallow: /

<meta name="robots" ...

Куда ставить?

Как и все метаданные его надо поместить в HEAD HTML документа :

<html>
<head>
<meta name="robots" content="noindex,nofollow" />
<meta name="description" content="This page ...." />
<title>...
</head>
<body>
...

Какие значения

Этот тэг должен содержать значения разделенные запятой. Вот так :

<meta name="robots" content="index,follow" />
<meta name="robots" content="noindex,follow" />

Причем нельзя задавать заведомо конфликтные значения, типа :

<meta name="robots" content="INDEX,NOINDEX" />

INDEX (NOINDEX) — отвечает за то, будет ли индексироваться эта страничка.
FOLLOW (NOFOLLOW) — будет ли поисковик идти по ссылкам с нашего сайта дальше.

Например если у нас страничка часто обновляется, то может сложится ситуация неудобная для пользователя. Например поисковик пришел на страничку, проиндексировал её. Однако через час вы изменили информацию. Когда пользователь перейдет по ссылке с поисковика он уже не найдет нужной ему информации, и просто потеряет время.

Выходом из подобной ситуации может послужить такая директива :

<meta name="robots" content="noindex, follow" />

Теперь роботы не будут индексировать эту страницу, но будут переходить по ссылкам с неё, то есть индексироваться будет только постоянный контент. Здесь читать про META.

Еще по теме :

Про проблему одного блоггера.
Как узнать что вас посетил Google?

3 комментариев к “Управляя роботами”

1.plaha | 15 Feb, 2007: хорошая статья
2.Лев | 27 Aug, 2007: Хорошая информация. Спасибо автору за нее!
3.Вадим | 27 Sep, 2007: Наконец то нашел нормальную инфу про robots.txt! Спасибо!

Next: Где русский дизайн CSSZenGarden?
Previous: Карта блоггеров