1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Современные реалии Яндекса или правильный robots.txt

В связи с последними событиями (как-будто, новый АГС придумали, но циферки просто кончились – реальные АГС – только АГС-17 и АГС-30), а именно новой волной выпадания сайтов из индекса Яндекса, хочу поделиться правильными (на мой взгляд :) ) файлами robots.txt для DLE и WordPress.

правильный robots.txt

Если раньше robots.txt я использовал, в основном, только для указания директивы hosts (чуть позже, когда наклепал много сайтов на ДЛЕ, начал ещё раздел user закрывать от индексации, так как много спам ссылок в профилях было), то теперь, волей-неволей, приходиться работать с этим файлом более плотно, во избежании вылета сайта из индекса.

Не в тему: решил проверить, как правильно писать волей-неволей, задал всезнающему Яндексу такой запрос, и на  четвертой и пятой позиции оказалось видео. Первый раз такое увидел, удивился даже :) .
волей-не волей

Теперь же ситуация изменилась в корне – сейчас необходимо на новом (относительно новом) сайте закрыть все дубли контента от индексации. Дубли контента появляются в следующих случаях:

  • Использование тегов (меток) на сайте
  • Использование календаря, архивов материалов
  • В WordPress ещё и использование категорий, но это спорный вопрос

Что избежать дублирование контента, не нужные нам разделы нужно закрыть от индексации инструкцией в  файле robots.txt. Мой robots.txt для DLE (сегодня на 10+ сайтах менял, устал аж :) ):

User-agent: *
Disallow: /user/
Disallow: */rss.xml
Disallow: /tags/
Disallow: /2009/
Disallow: /2010/

User-agent: Yandex
Host: site.ru
Disallow: /user/
Disallow: */rss.xml
Disallow: /tags/
Disallow: /2009/
Disallow: /2010/

user – профили пользователей, минимум оригинальной информации – максимум спама, в топку.

rss.xml – это из-за ошибок в панели вебмастера (формат документа не поддерживается), всё равно в индекс не возьмут, в топку.

tags – злобные теги, все беды из-за них, туда же.

2009-2010 – архивы новостей, календарь, лишнее дублирование контента, закрываем от индексации.

Мой robots.txt для WordPress:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /clickheat/
Disallow: */comment-page-*
Disallow: /xmlrpc.php
Disallow: /20*
Disallow: */*?replytocom*

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /clickheat/
Disallow: */comment-page-*
Disallow: /xmlrpc.php
Disallow: /20*
Disallow: */*?replytocom*
Host: antonblog.ru

Используется на этом блоге, не для всех WordPress блогов хорошо. Как видно, я не стал закрывать от индексации категории, вместо этого я пользуюсь wordpress тегом <!–more–>. И какой то не правильной мне кажется идея закрытия категорий от индексации – тогда до старых постов как добираться поисковикам? Только по постраничной навигации? Это в скольких кликах от главной что то старое окажется??

Итог – при современном жестком фильтровании Яндексом всего подряд, страницы, содержащие дубли контента однозначно должны быть закрыты от индексации.

PS Нужно ваше мнение по поводу даты очередного апдейта PR.

Постовые (обмен постовыми):

Челябинский блогер написал о RBKmoney, новое слово в верификации пользователя.

Всё про партнерские программы на сайте ppmoney.ru

Спасибо за ретвит этой записи, если вам понравился материал, подпишитесь на обновления блога по RSS или по почте:

Читать в Яндекс.Ленте Добавить в Google Reader
1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Рекомендую прочесть

  • http://sosnovskij.ru Sosnovskij

    Да, теперь надо все от яндекса закрывать, прятать и «ныкать» :)
    Насчет просмотра видео в результатах поиска, так это пару месяцев назад он так начал воровать трафик у видеохостингов.

    • http://antonblog.ru Антон

      я только сегодня видео заметил :)

  • http://polyana.aelita.su Лаура

    Может быть добавить еще и это? Как считаешь?

    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /author*
    Disallow: /*?*
    Disallow: /*?

    А вот это что делает?

    Disallow: */*?replytocom*
    Disallow: /clickheat/

    • http://antonblog.ru Антон

      Disallow: /cgi-bin
      Disallow: /wp-login.php
      Disallow: /wp-register.php
      Disallow: /xmlrpc.php
      Disallow: /author*

      эти файлы у меня в теме не индексируются и так, а это:
      Disallow: */*?replytocom* – при древовидных комментариях лишние страницы появляются
      Disallow: /clickheat/ – карта кликов сайта (попробуйте demo demo)

  • http://webcherepovets.com Sergey

    Я считаю, что АГС’у вообще без разницы есть или нету robots.txt на хостинге.

    • http://antonblog.ru Антон

      по моим наблюдениям, если сайт не сильно трастовый, то есть ощутимая разница ;)

  • http://xstroy.com Xstroy

    Ты закрываешь feed, а Гугл наоборот просит оставлять его открытым для лучшей индексации.
    У меня на блогах ничего не закрыто и полная индексация и тегов, и архивов. Самый важный фактор – постоянная регулярная подача материала.

    • http://antonblog.ru Антон

      тут каждый сам решает как лучше… :)

  • http://noindex.by nofollow

    А зачем дважды писать (в роботах) одно и то же – для всех и для Яндекса лично? Чтобы задобрить? :)
    Т.е. почему не нравится так:

    User-agent: *
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /tag
    Disallow: /clickheat/
    Disallow: */comment-page-*
    Disallow: /xmlrpc.php
    Disallow: /20*
    Disallow: */*?replytocom*
    Host: antonblog.ru
    ===

    • http://antonblog.ru Антон

      ну, вообще, директиву host понимает только Яндекс

      • http://noindex.by nofollow

        Совершенно верно. В приведённом мною варианте все роботы скушают «стандартные» команды, а нестандартную – лишь Яндекс.

        п.с. кстати, гугл на команду хост – не ругается (в отличие, к примеру, от Crawl-delay).

  • Алексей

    А я хотел спросить: ставить Disallow:/page/ нужно, ведь это поможет от дублей страниц??

    • http://antonblog.ru Антон

      я не закрываю, для избежания дублирования пользуюсь тегом more

  • Константин

    А как оно будет, если вместо этих команд:

    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes

    использовать одну:

    Disallow: /wp-content

    и добавочку:

    Allow: /wp-content/uploads

    • http://antonblog.ru Антон

      можно и так, тот же результат

Подпишись на RSS Следите за обновлениями в Twitter!
ВверхВверх