Управляя роботами
19 Aug, 2004Роботы (их еще называют спайдерами) — минипрограмки, которые путешествуют по инету и индексируют наши странички, то есть дают знать поисковикам, что на них есть. И потом мы можем приносить пользу людям, которые что-то ищут. Даже на моём "молодом" блоге большая часть так называемых referrer'ов (мест где есть на меня ссылка) это поиски через Google. А на больших блогах их еще больше.
О поисковых роботах знают многие, и все рады когда они приходят. Но почему-то мало кто помогает им. Да и вообще на половине сайтов их игнорируют и не знают что можно управлять ими.
Специально для управления роботами предусмотрено два способа:
- Можно хранить небольшой текстовый файл "robots.txt" на вашем сервере со списком правил для роботов.
- Использовать
META
тэг.
robots.txt
Что бы поисковики нашли его (этот файл) он должен быть доступен по адресу "/robots.txt" .
Это обычный текстовый файл, содержащий одну или больше записей каждая на своей строке. Для комментариев используют символ "#".
Вот здесь, детально описано как он формируется. А я приведу лишь несколько примеров :
Пример запрещающий роботам посещение страниц начинающихся с "/cyberworld/map/" или "/tmp/", или /foo.html:
# robots.txt for http://www.example.com/ User-agent: * Disallow: /cyberworld/map/ # в этой папке слишком много URL Disallow: /tmp/ # а эту папку скоро удалят Disallow: /foo.html
А этот файл запрещает всем роботам кроме "cybermapper" посещение URL начинающихся с "/cyberworld/map/" :
# robots.txt for http://www.example.com/ User-agent: * Disallow: /cyberworld/map/ # слишком много URL в этой папке # Cybermapper knows where to go. User-agent: cybermapper Disallow:
Можно и вообще запретить роботам посещать свой сайт, вот так :
# go away User-agent: * Disallow: /
<meta name="robots" ...
Куда ставить?
Как и все метаданные его надо поместить в HEAD HTML документа :
<html> <head> <meta name="robots" content="noindex,nofollow" /> <meta name="description" content="This page ...." /> <title>... </head> <body> ...
Какие значения
Этот тэг должен содержать значения разделенные запятой. Вот так :
<meta name="robots" content="index,follow" /> <meta name="robots" content="noindex,follow" />
Причем нельзя задавать заведомо конфликтные значения, типа :
<meta name="robots" content="INDEX,NOINDEX" />
INDEX (NOINDEX) — отвечает за то, будет ли индексироваться эта страничка.
FOLLOW (NOFOLLOW) — будет ли поисковик идти по ссылкам с нашего сайта дальше.
Например если у нас страничка часто обновляется, то может сложится ситуация неудобная для пользователя. Например поисковик пришел на страничку, проиндексировал её. Однако через час вы изменили информацию. Когда пользователь перейдет по ссылке с поисковика он уже не найдет нужной ему информации, и просто потеряет время.
Выходом из подобной ситуации может послужить такая директива :
<meta name="robots" content="noindex, follow" />
Теперь роботы не будут индексировать эту страницу, но будут переходить по ссылкам с неё, то есть индексироваться будет только постоянный контент. Здесь читать про META.
3 комментариев к “Управляя роботами”