Современные реалии Яндекса или правильный robots.txt

В связи с последними событиями (как-будто, новый АГС придумали, но циферки просто кончились – реальные АГС – только АГС-17 и АГС-30), а именно новой волной выпадания сайтов из индекса Яндекса, хочу поделиться правильными (на мой взгляд :) ) файлами robots.txt для DLE и WordPress.

правильный robots.txt

Если раньше robots.txt я использовал, в основном, только для указания директивы hosts (чуть позже, когда наклепал много сайтов на ДЛЕ, начал ещё раздел user закрывать от индексации, так как много спам ссылок в профилях было), то теперь, волей-неволей, приходиться работать с этим файлом более плотно, во избежании вылета сайта из индекса.

Не в тему: решил проверить, как правильно писать волей-неволей, задал всезнающему Яндексу такой запрос, и на  четвертой и пятой позиции оказалось видео. Первый раз такое увидел, удивился даже :) .
волей-не волей

Теперь же ситуация изменилась в корне – сейчас необходимо на новом (относительно новом) сайте закрыть все дубли контента от индексации. Дубли контента появляются в следующих случаях:

  • Использование тегов (меток) на сайте
  • Использование календаря, архивов материалов
  • В WordPress ещё и использование категорий, но это спорный вопрос

Что избежать дублирование контента, не нужные нам разделы нужно закрыть от индексации инструкцией в  файле robots.txt. Мой robots.txt для DLE (сегодня на 10+ сайтах менял, устал аж :) ):

User-agent: *
Disallow: /user/
Disallow: */rss.xml
Disallow: /tags/
Disallow: /2009/
Disallow: /2010/

User-agent: Yandex
Host: site.ru
Disallow: /user/
Disallow: */rss.xml
Disallow: /tags/
Disallow: /2009/
Disallow: /2010/

user – профили пользователей, минимум оригинальной информации – максимум спама, в топку.

rss.xml – это из-за ошибок в панели вебмастера (формат документа не поддерживается), всё равно в индекс не возьмут, в топку.

tags – злобные теги, все беды из-за них, туда же.

2009-2010 – архивы новостей, календарь, лишнее дублирование контента, закрываем от индексации.

Мой robots.txt для WordPress:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /clickheat/
Disallow: */comment-page-*
Disallow: /xmlrpc.php
Disallow: /20*
Disallow: */*?replytocom*

User-agent: Yandex
Host: antonblog.ru
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /clickheat/
Disallow: */comment-page-*
Disallow: /xmlrpc.php
Disallow: /20*
Disallow: */*?replytocom*

Используется на этом блоге, не для всех WordPress блогов хорошо. Как видно, я не стал закрывать от индексации категории, вместо этого я пользуюсь wordpress тегом <!–more–>. И какой то не правильной мне кажется идея закрытия категорий от индексации – тогда до старых постов как добираться поисковикам? Только по постраничной навигации? Это в скольких кликах от главной что то старое окажется??

Итог – при современном жестком фильтровании Яндексом всего подряд, страницы, содержащие дубли контента однозначно должны быть закрыты от индексации.

PS Нужно ваше мнение по поводу даты очередного апдейта PR.

Постовые (обмен постовыми):

Челябинский блогер написал о RBKmoney, новое слово в верификации пользователя.

Всё про партнерские программы на сайте ppmoney.ru

Если вам понравился материал, подпишитесь на обновления блога по RSS или по почте:

Читать в Яндекс.Ленте Добавить в Google Reader

11 коммент. к записи “Современные реалии Яндекса или правильный robots.txt”

  1. Да, теперь надо все от яндекса закрывать, прятать и «ныкать» :)
    Насчет просмотра видео в результатах поиска, так это пару месяцев назад он так начал воровать трафик у видеохостингов.

  2. Может быть добавить еще и это? Как считаешь?

    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /author*
    Disallow: /*?*
    Disallow: /*?

    А вот это что делает?

    Disallow: */*?replytocom*
    Disallow: /clickheat/

    • Disallow: /cgi-bin
      Disallow: /wp-login.php
      Disallow: /wp-register.php
      Disallow: /xmlrpc.php
      Disallow: /author*

      эти файлы у меня в теме не индексируются и так, а это:
      Disallow: */*?replytocom* – при древовидных комментариях лишние страницы появляются
      Disallow: /clickheat/ – карта кликов сайта (попробуйте demo demo)

  3. Я считаю, что АГС’у вообще без разницы есть или нету robots.txt на хостинге.

  4. Ты закрываешь feed, а Гугл наоборот просит оставлять его открытым для лучшей индексации.
    У меня на блогах ничего не закрыто и полная индексация и тегов, и архивов. Самый важный фактор – постоянная регулярная подача материала.

  5. А зачем дважды писать (в роботах) одно и то же – для всех и для Яндекса лично? Чтобы задобрить? :)
    Т.е. почему не нравится так:

    User-agent: *
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /tag
    Disallow: /clickheat/
    Disallow: */comment-page-*
    Disallow: /xmlrpc.php
    Disallow: /20*
    Disallow: */*?replytocom*
    Host: antonblog.ru
    ===

    • ну, вообще, директиву host понимает только Яндекс

      • Совершенно верно. В приведённом мною варианте все роботы скушают «стандартные» команды, а нестандартную – лишь Яндекс.

        п.с. кстати, гугл на команду хост – не ругается (в отличие, к примеру, от Crawl-delay).

Прокомментировать

Я не робот (поставьте галочку)

Подпишись на RSS Follow me on Twitter!