Как создать sitemap.xml вручную

16 апреля 2012 | Автор: zkzakhar | Теги: , , ,

sitemap-handУже давненько я писал о том как как настроить robots.txt, и там же обещал написать о создании карты сайта. Вот, пишу, как говорится лучше поздно чем никогда.

Для начала следует сказать, что карту сайта формата xml можно создать вручную и с помощью плагинов. Здесь я расскажу о ручном варианте как создать sitemap xml, а в следующем посте я опишу работу одного плагина для популярного движка WordPress, который будет за вас делать всю грязную работу.

Карты сайтов бывают 2-х видов: для людей и для роботов. Карта сайта xml, о которой сейчас пойдёт речь — это для роботов поисковых систем. После её создания требуется зайти в панели Яндекс.Вебмастер и Google Webmasters и там в отведённое поле вписать урл ведущий на карту, в самом простом варианте он выглядит так: http://yousite.ru/sitemap.xml

Файл sitemap.xml в идеале должен дополнять robots.txt. Самым главным, на что стоит обратить здесь внимание это то, что оба эти файла не должны иметь противоречивый код, а именно:

  1. страницы исключенные в robots.txt не должны присутствовать в sitemap.xml
  2. разрешенные для индексации страницы в robots.txt должны быть и в sitemap.xml

Обязательные атрибуты карты сайта sitemap xml

Как и html теги все атрибуты карты сайта sitemap.xml должны обязательно закрываться.

  1. <urlset></urlset> — указывает стандарт протокола. Короче говоря всё содержимое файла должно заключаться в этот атрибут. Первая строчка файла начинается <urlset>, последняя строка файла заканчивается закрывающим </urlset>.
  2. <url></url> — тег описывающий одну ссылку. Сколько ссылок в sitemap.xml существует, столько и тегов <url> файл и использует.
  3. <loc></loc> — тег находящийся внутри тега <url>. В него заключается сам адрес страницы, который обязательно должен начинаться с http:// (https:// и т.д.). Длина одного урла заключенного в тег <loc></loc> не должна превышать 2048 символов.

Дополнительные атрибуты карты сайта sitemap xml

Дополнительные атрибуты не обязательны и служат для акцентирования кое-каких деталей при обработке урлов поисковыми роботами.

  1. <lastmod></lastmod> — последнее обновление страницы сайта. Имеет вид гггг-мм-дд.
  2. <changefreq></changefreq> — частота изменения страницы. Возможные варианты: always, hourly, daily, weekly, monthly,yearly, newer.
  3. <priority></priority> — устанавливается приоритет страниц для сканирования поисковыми роботами. Возможные значения от 0,0 до 1,0. Значение по умолчанию 0,5.

Обращаю ваше внимание, что все эти дополнительные атрибуты не являются руководством к действию для поисковых систем. Ими вы можете указать роботу что на ваш взгляд заслуживает внимание, а что не заслуживает, но работает он так как сам считает нужным. Например, если вы выберете в атрибуте <changefreq> параметр never — это совсем не значит, что робот никогда не пересмотрит содержание этой страницы. В алгоритмах любой поисковой системы нет строгих определенносей.

Составления карты сайта на примере одного урла

<urlset>
<url>
<loc>http://zkzakhar.com/nastrojka-robots-txt-i-glavnye-direktivy.html</loc>
<changefreq>monthly</changefreq>
<lastmod>2012-03-28</lastmod>
<priority>0.5</priority>
</url>
<url>
.
.
.
</url>
</urlset>

Коротко о главных правилах составления sitemap xml

  • должен быть не более 10 Мб и содержать не более 50000 урлов
  • может состоять из нескольких файлов, но общее количество не должно превышать 1000 штук
  • каждый файл sitemap.xml должен быть прописан в robots.txt
  • sitemap.xml работает только с тем файлами, которые находятся в этом же каталоге (либо во вложенных в этот)

Постовой! Ты рисковый, авантюрный человек и любишь соответствующие твоей натуре игры? Попробуй игровой автомат резидент бесплатно там ты сможешь окунутся в невероятно интересную и захватывающую роль резидента-разведчика. Секретные задания, оружие на любой вкус, необычайная атмосфера окутанная ореолом неизвестности — всё это ты сможешь испытать именно там!

[vk-share-button]