Настройка robots.txt и главные директивы

4 марта 2012 | Автор: zkzakhar | Теги: , ,

настройка robots.txtФайл robots.txt служит для управления поисковым роботом на страницах вашего сайта. С помощью него можно запрятать страницы от индексации, или наоборот, указать боту какие страницы обязательны к индексации, прописать путь к файлу sitemap, указать главное зеркало, запретить индексацию определённым роботам и многое другое. А теперь о том, как настроить robots.txt.

Для себя я выделил несколько главных директив, те которые будут самыми полезными и востребоваными. Следует сказать, что роботы разных поисковых систем могут понимать содержимое robots.txt несколько по разному. Это где-то то же самое, что и тег <noindex> — создан Яндексом и понимается только Яндексом, Google он до лампочки. Если кому-то надо более детально изучить директивы заточенные под Яндекс можно обратиться непосредственно в ихний справочник _http://help.yandex.ru/webmaster/?id=996567 так же на страницах блога ktonanovenkogo.ru можно найти информацию по данному вопросу.

Всеми поисковыми системами без исключения воспринимаются такие директивы:

Директива User-Agent — указывает имя бота, которому следует читать эту инструкцию.

Синтаксис

User-agent: Yandex
User-agent: *

В первом случае директива говорит, что инструкция обращена к роботу Yandex, второй случай обращен всем роботам без исключения. Каждый робот сначала ищет персональную инструкцию и только в том случае если её не находит — обращается к общей.

Директива Disallow — главная директива, которая запрещает индексацию указанного адреса или адресов, находящихся в одной директории.

Синтаксис

Disallow: /page/
Disallow: /*/search/

В первом случае роботу запрещается индексировать постраничную навигацию сайта, то есть страница вида _http://zkzakhar.com/page/2 в индекс не попадёт. Во втором случае к индексации запрещаются все страницы содержащие /search/.

Надо обратить внимание:

  1. Домен сайта в директиве не прописывается, т.е. Disallow: zkzakhar.com/page/ — не верно
  2. Команды Disallow: /page/ и Disallow: /page/* идентичны

Директива Sitemap — указывает путь к карте сайта в формате xml. Если директива не прописывается, робот автоматически пытается найти файл по адресу domen.com/sitemap.xml.
О том зачем нужна карта сайта и как её настроить будет посвящен один из следующих постов.

Директивы, которые воспринимаются только поисковой системой Yandex:

Директива Allow — противоположна директиве Disallow, то есть указывает страницы, которые должны быть проиндексированы. Это не даёт 100% гарантий на индексацию, просто есть сайты, у которых мусорных страниц в разы больше чем нужных и для оптимизации нагрузки на сервер следует указать из этой кучи то, что ценно.

Кроме этого с помощью Allow можно разрешить индексацию адресу, который входит в каталог закрытый от индексации. Синтаксис такой комбинации будет примерно таким:

User-agent: Yandex
Disallow: /category/
Allow: /category/$

Знак $ означает строгое соответствие. То есть страница zkzakhar.com/category/puteshestviya индексироваться не будет, а zkzakhar.com/category будет.

Директива Host — указывает главное зеркало сайта. Именно оно и будет вылазить в выдаче Яндекса. Если домен с сайтом единственный, то всё-равно в Host следует указать наличие префикса: www или без-www.

Синтаксис

Host: zkzakhar.com

Ещё кое-какие положения, требующие внимания:

  • любая инструкция должна начинаться с директивы User-Agent
  • в файле robots.txt можно делать несколько инструкций
  • отключить инструкцию можно символом #
  • общее количество директив не должно превышать 1024
  • код ответа от domen.com/robots.txt должен быть только 200

При желании можете изучить мой robots.txt. Если есть дополнения — с удовольствием их выслушаю в комментариях.

Захар

[vk-share-button]