Свой сайт на WordPress — от А до Я. SEO блог Романа В

О том, как сделать правильный robots.txt для WordPress написано уже достаточно. Однако, чтобы угодить своим читателям, я решил опубликовать свой пост на эту тему. Тем более, что моими коллегами эта тема раскрыта не полностью и тут можно многое добавить.

Правильный robots.txt для WordPress

Что такое robots.txt и зачем он нужен?

robots.txt это текстовый документ, составленный в обыкновенном блокноте, расположенный в корневой директории блога и содержащий в себе инструкции по индексации для поисковых роботов. Проще говоря, что индексировать, а что нет. Наличие этого файла является обязательным условием для качественной внутренней поисковой оптимизации блога.

Как известно, блоги на платформе WordPress содержат в себе множество дублей (копий основного содержимого блога), а также целый набор служебных файлов. Дубли контента снижают его уникальность на домене и поисковые роботы могут наложить на блог серьезные штрафные санкции.

Чтобы повысить уникальность контента, облегчить поисковым ботам работу и тем самым улучшить качество индексации блога, нам и нужен robots.txt.

robots.txt для WordPress

Правильный robots.txt для WordPress

Рассмотрим на примере моего robots.txt, как его правильно оформить и что в него должно входить.

Скачайте его себе на жесткий диск по этой ссылке и откройте для редактирования. В качестве редактора текстовых файлов настоятельно рекомендую использовать Notepad++.

Правильный robots.txt для WordPress

Строки 6,7: Принято считать, что необходимо закрывать поисковым роботам доступ к служебным файлам в папках «wp-content» и «wp-includes». Но, Гугл по этому поводу нам говорит следующее:

Чтобы обеспечить правильное индексирование и отображение страниц, нужно предоставить роботу Googlebot доступ к JavaScript, CSS и графическим файлам на сайте. Робот Googlebot должен видеть ваш сайт как обычный пользователь. Если в файле robots.txt закрыт доступ к этим ресурсам, то Google не удастся правильно проанализировать и проиндексировать содержание. Это может ухудшить позиции вашего сайта в Поиске.

Таким образом, для Googlebot не рекомендуется запрещать доступ к файлам в этих папках.

Строка 40: С весны 2018 года директива «Host«, указывающая главное зеркало сайта Яндексу, больше не действует. Главное зеркало для нашей поисковой системы теперь определяется только через 301 редирект.

Строки 42,43: Если у Вас еще не создана карта сайта, обязательно сделайте ее. В пути к файлам карты вместо моего адреса wordpress-book.ru пропишите свой. Этот ход сделает индексацию блога поисковиками полной и увеличит ее скорость.

Уже сейчас, можно сказать, что ваш правильный robots.txt для WordPress готов. В таком виде он подойдет для абсолютного большинства блогов и сайтов. Останется только закачать его в корень блога (обычно в папку public_html).

robots.txt

Сделать robots.txt для блога можно и с помощью плагина, например, PC Robots.txt. С его помощью вы сможете создать и редактировать свой robots.txt прямо в админке блога. Но я не советую использовать плагины для создания robots.txt, чтобы исключить лишнюю нагрузку на блог.

Содержание robots.txt любого блога или сайта, если он конечно есть, вы всегда можете посмотреть. Для этого достаточно в адресной строке браузера ввести к нему путь – https://wordpress-book.ru/robots.txt.

Ниже приведена информация по содержанию этого документа и некоторые рекомендации по его оформлению и анализу.

Звездочка «*«, прописанная в тексте robots.txt, означает, что на ее месте допускается последовательность любых символов.

Директива «User-agent» определяет, для каких поисковых роботов даны указания по индексации, прописанные под ней. Таким образом, «User-agent: *» (строка 1) указывает, что инструкции, прописанные под ней, предназначены для всех поисковых систем.

Строка 21: Персонально для Яндекса под «User-agent: Yandex» дублируем список этих команд. Дублирование инструкций для Яндекса дает нам гарантию их выполнения поисковой системой.

Директива «Disallow» запрещает индексацию прописанного для нее каталога или страниц. Директива «Allow» разрешает. Командой «Disallow: /wp-content/» (строка 7) я запретил индексацию служебного каталога «wp-content» на сервере и соответственно всех папок в ней с их содержимым, но командой «Allow: /wp-content/uploads» (строка 8) разрешил индексировать все картинки в папке «upload» каталога «wp-content«. Так как «Allow» является приоритетной директивой для поисковых роботов, то в индекс попадут только изображения папки «upload» каталога «wp-content«.

Для директивы «Disallow» имеет смысл в некоторых случаях дополнительно прописывать следующие запреты:

  • —  /amp/ — дубли ускоренных мобильных страниц. На всякий случай для Яндекса.
  • —   /comments — закрыть от индексации комментарии. Зачем закрывать содержащийся в комментариях уникальный контент? Для большей релевантности ключевых слов и неиндексации исходящих ссылок в комментариях. Вряд ли это поможет.
  • /comment-page-* — другое дело древовидные комментарии. Когда комментарии не помещаются на одну страницу (их количество вы проставили в настройках админки), создается дубль страницы типа wordpress-book.ru/…/comment-page-1.  Эти дубли конечно же надо закрывать.
  • —   /xmlrpc.php — служебный файл для удаленных вызовов. У меня его нет и соответственно нет индексации и без запрета.
  • —   /webstat/ — папка со статистикой сайта. Эта папка есть тоже далеко не у всех.

Нельзя не упомянуть про редко используемую, но очень полезную директиву для Яндекса — «Crawl-delay». Она задает роботу паузу во времени в секундах между скачиванием страниц, прописывается после групп директив «Disallow» и «Allow» и используется в случае повышенной нагрузки на сервер. Прописью «Crawl-delay: 2″ я задал эту паузу в 2 секунды.  При нормальной работе сервера качество индексации не пострадает, а при пиковых нагрузках не ухудшится.

Некоторым веб-мастерам может понадобится запретить индексацию файлов определенного  типа, например, с расширением pdf. Для этого пропишите — «Disallow: *.pdf$«. Или поместите все файлы, индексацию которых требуется запретить, в предварительно созданную новую папку, например, pdf, и пропишите «Disallow: /pdf/«.

При необходимости запрета индексации всей рубрики, такое бывает ,например, при публикации в нее чужих интересных записей, пропишите — «Disallow: /nazvanie-rubriki/*«, где «nazvanie-rubriki», как вы уже догадались — название рубрики, записи которой поисковикам индексировать не следует.

Тем, кто зарабатывает на своем блоге размещением контекстной рекламы в партнерстве с Google AdSense, будет нелишним прописать следующие две директивы:

User-agent: Mediapartners-Google
Disallow:

Это поможет роботу AdSense избежать ошибок сканирования страниц сайта и подбирать для них более релевантные объявления.

wp-content/uploads/2014/02/YouTube_Downloader_dlya_Ope.jpg»,tid: «OIP.M3a4a31010ee6a500049754479585407do0

Обнаружил у себя только что вот такой вот новый вид дублей в Яндекс Вебмастере. 96 штук уже накопилось и это не предел. А ведь совсем недавно у wordpress-book.ru с дублями был полный порядок. Есть подозрение, что шлак с идентификатором tid:»OIP появляется в индексе поисковика после скачивания картинок роботом Яндекса. Если не лень, посмотрите сколько таких несуществующих страниц разных сайтов уже участвуют в поиске.

Понятно, что с этим чудом надо что-то делать. Достаточно добавить запрещающую директиву — «Disallow: /wp-content/uploads/*.jpg*tid*» в robots.txt. Если на сайте есть картинки png, gif и т.д., добавьте директивы с соответствующими расширениями изображений.

При редактировании robots.txt, учтите, что:

—   перед каждой новой директивой «User-agent» должна быть пустая строка, которая обозначает конец инструкций для предыдущего поисковика. И соответственно после «User-agent» и между «Disallow» и «Allow» пустых строк быть не должно;

—   запретом индексации страниц в результатах поиска «Disallow: /*?*» вы заодно можете случайно запретить индексацию всего контента, если адреса страниц вашего блога заданы по умолчанию со знаком вопроса в виде — /?p=123. Советую сделать для адресов ЧПУ (человеко понятные урлы :-)). Для этого в настройках постоянных ссылок выберите произвольный шаблон и поставьте плагин Rus-to-Lat.

Анализ robots.txt

Теперь, когда ваш robots.txt отредактирован и залит на сервер, остается только проверить, правильно ли он работает.

Зайдите в свой аккаунт Яндекс Вебмастер и перейдите «Настройки индексирования» → «Анализ robots.txt«. Нажмите на кнопку «Загрузить robots.txt с сайта» и далее на кнопку «Проверить«.

Анализ robots.txt

Если Яндексу понравится ваш файл, под кнопкой «Проверить» появится сообщение, примерно как на картинке выше.

Недавно в инструментах для веб-мастеров Гугла появилось очень полезная функция — «Инструмент проверки файла robots.txt«. Можно проверить свой файл на наличие ошибок и предупреждений.

Просто в своем аккаунте перейдите «Сканирование» → «Инструмент проверки файла robots.txt«.

Через некоторое время, когда бот Яндекса скачает ваш robots.txt, проанализируйте в Яндекс Вебмастере адреса страниц вошедших в индекс и исключенных из него в robots.txt. Вошедшие в индекс дубли срочно запрещайте к индексации.

Теперь ваш robots.txt для WordPress правильный и можно поставить еще одну галочку под пунктом выполнения задач по внутренней поисковой оптимизации блога.

robots.txt запретить индексацию всем

При создании тестового блога или при самом его рождении, если вы хотите полностью запретить индексацию сайта всеми поисковыми системами, в robots.txt должно быть прописано всего лишь следующее:

User-agent: *
Disallow: /

Правильный robots.txt для WordPress обновлено: 14 апреля, 2018 автором: Роман Ваховский
Хороший человек всегда нажмет на кнопку!
Комментарий > Моя благодарность > Ссылка на секретную страницу блога

99 комментариев: Правильный robots.txt для WordPress

  • Светлана:

    Вот в этой статье https://dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress я как раз подробно описал то, что если открыть uploads для всех ботов, то в индексе появляются загруженные PDF и прочие текстовые файлы. А в яндекс вебмастере, в отчете «Исключенные страницы» появляются сообщения об ошибке при индексировании картинок, мол содержимое не поддерживается. Прежде чем писать и давать советы, сообщения GSC и ЯВебмастера пробовали анализировать?

  • Обезьяницй Царь:

    Приветствую! Много страниц жрет вот таких:
    /wp-content/uploads/2017/04/%F1%F2%EE%EB-%C1%E5%E9%ED%E0%F0%E4%F1_0005_Layer-1.jpg

    Заходишь, 404 страница.
    Как это убрать в роботсе подскажите пожалуйста?

    • Роман Ваховский:

      Добавьте в роботс еще одной строчкой: Disallow: */%*.jpg и ждите переиндексации.

  • Татьяна:

    Роман, добрый вечер! У меня robots.txt такой на сайте. Но при проверке какой либо программой он пишет, что у меня станицы не в индексе запрещены в robots.txt, не могу понять где ошибка помогите

    • Роман Ваховский:

      Татьяна, сколько всего страниц на сайте? В индексе у Яндекса на сегодня — 88 страниц, а у Гугла — 102.
      Что говорит по этому поводу Яндекс.Вебмастер и Гугл?
      Запрещающих индексировать полезный контент директив не обнаружил.
      После «Sitemap:» поставьте пробелы.

  • Алексей:

    Роман спасибо Вам большое за совет. Обязательно исправим. В наше время это большая редкость. Чаще всего люди любят выставить «дураком», высмеять (мол не разбираешься и прочее). А Вы совсем наоборот. Быстро и корректно ответили (причем по делу). Для меня этот сайт очень важен. И Я Вам очень благодарен. Если вдруг заметите какие-нибудь недочеты, буду Вам признателен и с радостью их исправим!!!

  • Алексей:

    Роман здравствуйте. Вопрос к Вам как к специалисту:
    Только начинаю продвижение своего сайта в интернете. Ему всего пару месяцев в сети интернета. На данный момент он проиндексирован в поисковых системах. Худо-бедно шел не большой трафик посетителей. А две недели назад, на него и вовсе перестали переходить из поисковых машин. Но также пару недель назад был заменен файл Robots.txt. Сейчас он выглядит так:

    User-agent: *
    Allow: /wp-content/uploads/
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /template.html
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /?
    Host: 24potolok.by

    Sitemap: http : //24potolok.by/sitemap.xml

    У меня 2 вопроса:
    1. Насколько «годный файл робота
    2. И связано исчезновение трафика с заменой этого файла.

    В яндексвебмастере показывает, что загруженно 121 страница, а в поиске -42

    Очень долго ищу информацию по этому поводу… Конкретики нет… Что делать-непонятно. Буду Вам очень благодарен за любой совет.

    • Роман Ваховский:

      Здравствуйте, Алексей!
      На первый взгляд с роботсом все в порядке и падение трафика врядли связано с его заменой.
      Совершая анализ страниц Вашего сайта, сразу заметил грубейшую ошибку, которая вполне вероятно и послужила причиной. У Вас неправильно настроены ЧПУ сайта. Установите плагин https://wordpress-book.ru/administrirovanie/plagin-rus-to-lat/, пересохраните все страницы, старые удалите из индекса гугла и яндекса в яндекс и гугл вебмастерах, а с новыми URL добавьте. Дождитесь переиндексации. Если что еще замечу, сообщу.

  • Юрий:

    Просто заглянул в свою структуру сайта на Вебяндекс и увидел много проиндексированного хлама с этой папки. Поглядел у многих топовых вордсайтов роботсы, негде нет запрета на эту папку, глянул у вас, пишите одно, а стоит другое, вот и задал вам вопрос. Итог: значит закрываем? Без последствий?

  • Юрий:

    Роман вот ваш роботс:User-agent: *
    ————-
    Вы пишите что для яши /wp-content/ закрываете полностью, но в вашем роботсе нет запрета на эту папку. Почему так?

    • Роман Ваховский:

      Здравствуйте, Юрий.
      Экспериментировал. Яша ругался что сайт не оптимизирован под мобильные устройства, вот и снял запрет чтобы посмотреть что будет. Сейчас все в порядке, то ли яндекс одумался, то ли снятие запрета помогло. Давно это было, уже и думать забыл. Спасибо что обратили внимание.
      Вернул все назад, как было.
      P.S. Пока ковырялся, нашел еще один вид дублей. Сейчас дополню статью.

  • Виталий:

    Спасибо!
    Толковая статья, как раз в тему…

  • Елена:

    Роман, спасибо Вам!!! Установила Cyr to Lat enhanced. Дело пошло. Но фидбёрнер пока не проверила.
    Надеюсь Вас не обидит сумма на Яндекс-кошельке. Это просто спасибо 😉

    • Роман Ваховский:

      О, так это Вы были ). А я весь день ломаю голову кто бы это мог быть :-). По email сразу не догадался.

  • Елена:

    Роман, здравствуйте!
    Спасибо Вам большое-пребольшое за Ваш труд! Столько полезного! Развиваюсь с Вами))
    Скажите, пожалуйста, если плагин сгенерировал карту по адресу caйт.рф/index.php?xml_sitemap=params=, то значит этот адрес и прописывать в Sitemap: в роботсе?
    И ещё. Вы не в курсе имеет значение как пишешь название сайта в роботсе: русскими буквами или в пуникоде?

    ПС сайт пока в разработке, в поисковиках не зарег-н

    • Роман Ваховский:

      Здравствуйте, Елена!
      1. Если этот адрес рабочий (забейте его в поисковую строку браузера), то да.
      2. Современные поисковики понимают домены на кирилице, а robots только для них нужен, но все же лучше, на всякий случай, в пуникоде прописывать.
      P.S. У Вас неправильно настроены постоянные ссылки, нет чпу. Вот короткая инструкция — http://wordpress-book.ru/nastrojka-wordpress/nastrojka-postoyannyx-ssylok/.

      • Елена:

        Роман, спасибо! Роботса и карту сайта настроила, даже в Яндексе зарядила. Спасибо за помощь!

        Сделала чпу. До этого знала только «станки с чпу»))

        ПС Третий день бьюсь с фидбёрнером, но чёт без толку. Думала, если пост.ссылки настрою всё сразу поправится, ан нет :(( Вашу статью прочитала, всё вроде правильно делаю, но…

        • Роман Ваховский:

          Елена, я конечно не знаток по доменам в рф, но по моему названия статей и категорий даже в зоне рф должны быть на латинице, а не на кириллице как у Вас. Если я прав, то вот плагин, который исправит положение — http://wordpress-book.ru/administrirovanie/plagin-rus-to-lat/

  • Дмитрий:

    Понял. Спасибо.

  • Дмитрий:

    А все таки! Подскажите пожалуйста почему Гугул пишет — «Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.»???

    Мой robots.txt:

    User-agent: *
    Allow: /wp-content/uploads
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Allow: /wp-content/uploads/
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed
    Disallow: */feed
    Disallow: /*?*
    Disallow: /comment-page-*
    Disallow: /comments
    Disallow: /*/?replytocom=*
    Disallow: /tag
    Disallow: /category/
    Disallow: /author/
    Disallow: /20*/*
    Disallow: /page/*

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/

    User-agent: YandexImages
    Allow: /wp-content/uploads/

    User-agent: Yandex
    Allow: /wp-content/uploads
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Allow: /wp-content/uploads/
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed
    Disallow: /*?*
    Disallow: */feed
    Disallow: /comment-page-*
    Disallow: /comments
    Disallow: /*/?replytocom=*
    Disallow: /tag
    Disallow: /category/
    Disallow: /author/
    Disallow: /js/
    Disallow: /20*/*
    Disallow: /page/*
    Host: mojuchastok.ru
    Host: dobrosev.ru

    Sitemap: http:// dobrosev.ru/sitemap_index.xml

    • Роман Ваховский:

      Дмитрий, в роботсе вы запретили индексацию категорий, это правильно. А теперь посмотрите что содержится в карте, там те же category и page, которые запрещены к индексации. Сделайте карту сайта одностраничной с постами и страницами, а не с ссылками на них с sitemap_index.xml.
      Надеюсь, вы поняли мою мысль. Не знаю как объяснить проще. Если что, спрашивайте еще.

  • Олег:

    Спасибо Роман за отклик и помощь.

  • Олег:

    Добрый вечер Роман,нет яшка наооборот не ругается,гугла не устраевает .

  • Олег:

    Добрый вечер Роман,нет яшка наооборот не ругается,гугла не устраевает .

  • Олег:

    Роман добрый вечер.подскажите пожалуйста что это обозначает Not Found

    The requested URL /robots.txt/ was not found on this server.
    Apache/2.4.10 (Unix) Server at aromaberry24.ru Port 80 и как мне это исправить.,вот, мой робот и еще важный вопрос ,когда я в поисковике вбиваю url сайта то меня выбрасывает сразу на админ панель wp не хорошо,как мне это предвратить,уже что только не перепробовал,спасибо

    • Роман Ваховский:

      Здравствуйте, Олег!
      А где это сообщение появляется? Наверное в инструменте Яндекса по проверке роботса?
      В директивt Host: пропишите только домен сайта, без http://

    • Роман Ваховский:

      На счет того, что выбрасывает в админ панель. Не сохраняйте пароль сайта при входе, вставляйте пароль каждый раз при входе. Или заходите на сайт с другого браузера, в кэше которого пароль сайта не сохранен.

  • Сергей:

    Спасибо огромное! Практически со всеми пунктами справился сам, а то предлагают настроить роботс за приличные деньги. А делов-то! Только public_html не обнаружил у себя, залил просто в корень сайта. Яндесу понравилось, Гугл ещё не проверял.

  • Alex:

    «Я вот и не знал, что робот Google директиву Grawl-delay и не понимает ни разу»
    Директива называется Crawl, а не Grawl

  • andrey.yamchenko@yandex.ru:

    Роман, добрый день!Перепробовал все, но что-то у меня не получается, подскажите пожалуйста!
    Вот мой robots-txt :

    User-agent: *
    Allow: /wp-content/uploads
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed
    Disallow: */feed
    Disallow: /*?*
    Disallow: /comment-page-*
    Disallow: /comments
    Disallow: /*/?replytocom=*
    Disallow: /tag
    Disallow: /category/
    Disallow: /author/
    Disallow: /20*/*
    Disallow: /page/*

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/

    User-agent: YandexImages
    Allow: /wp-content/uploads/

    User-agent: Yandex
    Allow: /wp-content/uploads
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed
    Disallow: /*?*
    Disallow: */feed
    Disallow: /comment-page-*
    Disallow: /comments
    Disallow: /*/?replytocom=*
    Disallow: /tag
    Disallow: /category/
    Disallow: /author/
    Disallow: /js/
    Disallow: /20*/*
    Disallow: /page/*
    Host: mojuchastok.ru

    Sitemap: mojuchastok.ru/sitemap.xml
    Sitemap: mojuchastok.ru/sitemap.xml.gz

    А вот что выдает Yandex:

    User-agent: Yandex
    Allow: /wp-content/uploads

    Host: mojuchastok.ru

    Sitemap: mojuchastok.ru/sitemap.xml
    Sitemap: mojuchastok.ru/sitemap.xml.gz

    Я понимаю что у меня ошибка?Подскажите пожалуйста!

    • Роман Ваховский:

      Андрей, можете не беспокоиться. Яндекс говорит что у вас с роботсом все в порядке.
      P/S/ я убрал http в комментарии с адреса карты сайта, чтобы не было активной ссылки.

      • Андрей:

        Спасибо Роман за помощь!А вот еще один вопрос, почему гугл отображает мой сайт вот так: Описание веб-страницы недоступно из-за ограничений в файле robots.txt ?

        • Роман Ваховский:

          Андрей, что-то мне не сориентироваться. Не понятно, в чем именно (поиск, гугл вебмастер, …) гугл ругается? Лучше ссылку дайте.
          Ваш сайт оптимизирован для мобильных устройств и прекрасно отображается в сервисе, если вы об этом конечно.

  • Сергей:

    Ох уж эти дубли… Жаль вовремя не наткнулся на такой материл о robots.txt и не поубирал все эти Noindex: /*?* и им подобные, в результате теперь приходится начинать практически с нуля. Дубли просто убили посещаемость

  • Игорь:

    У меня вообще нет робота, если я сделаю точно также как вы, можете мне «путь» сказать в какой файл этого робота установить?

    • Роман Ваховский:

      Игорь, в корень блога, в папку public_html. В статье написано. Можно по ftp загрузить.

  • Султан:

    Зря вы так. Как раз по Вашей ссылке в статье 13 строка стоит данная директива!

    • Роман Ваховский:

      Да, уж ……… И правда, была там эта бяка (Noindex: /*?* в 13 строке) (((((((. Как она туда попала, понятия не имею. Сам туда ее прописать не мог, иначе она была-бы на скрине и описание было-бы к этой псевдо директивы.. Видимо, происки конкурентов )))))). Все исправил. Извиняюсь за доставленные неудобства.

      • Роман Ваховский:

        Проверил файл в бэкапе годовалой давности. Нету там Noindex: /*?*. Пора менять пароли.

  • Султан:

    Потихоньку ковыряю сайт.
    Решил поставить ваш robots.txt. Странно, что при проверки яндексом он ругается следующим образом:
    »
    13: Noindex: /*?*
    Обнаружена неизвестная директива
    »

    Подскажите — с чего вдруг?

    • Роман Ваховский:

      И правильно ругается. Не такой директивы Noindex: /*?*. Уберите ее с robots.txt. В моем роботсе, кстати, нет такой «директивы».

  • Антон:

    Добрый день! Не могли бы вы мне помочь. Скачал ваш файл, отредактировал его под свой сайт и загрузил. После этого залил на сайт статью krimnovostroi.ru/2015/08/20/zhk-victory-hills и попытался ее добавить в аддурилку яндекса. Пишет «Указанный URL запрещен к индексации в файле robots.txt на сайте krimnovostroi.ru». Может быть, я там что-то не так отредактировал? Буду очень благодарен за помощь, если подскажите, как устранить неполадку. И, если возможно, гляньте, пожалуйста весь файл. Мало ли еще где-то напорол.

    • Роман Ваховский:

      Сейчас в роботсе никаких ограничений на индексацию статей с такими хитрыми URL нет. В адурилку последняя статья успешно добавлена. У Вас, наверное, была прописана директива Disallow: /20*/*, как у меня и Вы ее уже убрали. Верно?

      • Антон:

        Взял другой роботс. Кстати, у меня тоже при проверке вашего файла в Вебмастере Яндекса «13: Noindex: /*?*
        Обнаружена неизвестная директива» выскакивало.

        • Роман Ваховский:

          По этому недоразумению в 13 строке все прояснилось. Отписался тремя комментариями ниже.

  • Алексей:

    Доброго времени суток, Роман!

    Не пойму в чем дело? В robots стоит хост с www, а яндекс пишет — Последняя проверка показала, что указанный вами домен http://www.sait.ru не может быть выбран в качестве главного зеркала. Поставил Ваш robots.txt и добавил еще — Disallow: /*add-to-cart=* так майл выдает что — Страницы сайта помечены тэгом <meta name="robots" content="noindex"/ хотя закрывал только страницу контакты. В чем причина не пойму.

    Заранее спасибо

    • Роман Ваховский:

      Здравствуйте, Алексей!
      1. Сами разобрались с индексацией? В данный момент разрешена индексация всех страниц —
      2. Яндекс глючит. Это в вебмастере так определили. Напишите Платонам в службу поддержки Яндекса.

  • Евгений:

    Проблема решена обновлением плагина.

  • Евгений:

    Доброго времени суток, Роман!
    Хочу Вас поблагодарить за предоставленную статью!
    У меня вот только на сайте по адресу: сайт/sitemap.xml.gz
    Выдает следующую ошибку:
    В firefox: «Ошибка синтаксического анализа XML: некорректно».(плагин Google XML Sitemaps)
    В эксплоере пишет «ошибка 404 — не найдено»
    Подскажите пожалуйста, где искать проблему?

    • Роман Ваховский:

      Трудно сказать со всей определенностью. Надо ковыряться по месту. Больше ничего не пишет?
      Посмотрите, правильно ли настроен плагин http://wordpress-book.ru/administrirovanie/google-xml-sitemaps/

  • mihail:

    Спасибо Роман, ответьте только на вопрос, зачем прописывать роботу два пути к сайтмапу-что это за .gz?
    Заранее спасибо

    • Роман Ваховский:

      Это сжатая gzip’ом карта в xml формате. Роботы будут быстрее ее скачивать для обработки.
      Вставьте этот (свой) адрес (http://wordpress-book.ru/sitemap.xml.gz) в адресную строку браузера, если откроется карта сайта, то все в порядке.

  • Наиль:

    Роман в в инструментах для вебмастеров Гугла у меня есть ошибка прилагаю скриншот объясните пожалуйста что за ошибка, как её исправить?

    • Роман Ваховский:

      Забыли скриншот приложить ). В статье из robots.txt я убрал две директивы для робота гугла. Скачайте новый robots.txt.

  • Кристина:

    Здравствуйте, скачал карту в корень сайта после этого а консоли показывает такое надпись.
    Конфликт с неизвестным файлом / и путь к карту сайта.Как поступить в этом случае.Спасибо

    • Роман Ваховский:

      На Вашем сайте и карта сайта (ее, карту, никуда закачивать не надо), и robots.txt функционируют нормально. Какой файл вы закачали в корень сайта?

  • Сергей:

    ну и жесть советы — еще бы туда данные к паролям в Disallow добавили. Абсолютно куча ненужных директив. Закрывают то, что может проиндексироваться по ссылкам с сайта, а вы светите конфиденциальную инфу, которая и не проиндексируется.
    Во-вторых, скачал файл по ссылке с готовым роботсом — он у вас кривой: всё в одну строчку написано.

    • Роман Ваховский:

      ??????? Какие директивы по вашему лишние?
      Скачал роботс, открыл, все в порядке. И поисковики его съедают.

  • Таня:

    Добрый день!
    Мой роботс выглядить так:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed

    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Host: lsclub.ru

    Sitemap: lsclub.ru/sitemap.xml.gz
    Sitemap: lsclub.ru/sitemap.xml

    Все бы ничего, но есть куча дублей. Связываю это с тем, что установлен плагин woocommerce вот например на главную вот такие дубли получились
    lsclub.ru/?add-to-cart=312
    lsclub.ru/?add-to-cart=206
    lsclub.ru/?add-to-cart=356
    lsclub.ru/?add-to-cart=204

    Вопрос такой: как запретить к индексации эти дубли?
    Заранее спасибо, если найдете возможность ответить мне!

  • Денис:

    Спасибо искал как закрыть дубли в архивах, и у Вас нашёл подсказку,всё работает.

  • Руслан:

    Роман, добрый день! Спасибо за статью! Последовал Вашему совету, сделал такой же robots.txt на моем проекте http://kak-eto-sdelano.ru. Но после индексации яндекс.вэбмастер показал, что из-за роботса не смог проиндексировать вполне себе правильные посты. У меня в настройках стоят ЧПУ, а яндекс заблокировал урлы вида /?p=102 В итоге, из 116 загруженных 84 под запретом, из которых 23 — это короткие урлы, а остальное страницы тэгов. Вопрос: Есть ли смысл запрещать через роботс урлы вида /?p=*, если они все равно ведут на ЧПУ? И когда яндекс заново считает роботс, чтобы проиндексировать убранные страницы? Спасибо!

    • Роман Ваховский:

      Дублей (соплей, как их стало модно называть) вида /?p=* очень много на любом WordPress проекте. А дубли закрывать нужно в любом случае (страницы тэгов те же дубли). Так что смысл есть, и очень здравый смысл.
      Робот Яндекса читает robots.txt при каждом заходе на сайт. Но после захода все равно надо ждать переиндексации, примерно неделю.
      Сейчас Ваш robots.txt не похож на мой. Не знаю, что там было прописано, что Яндекс выкинул множество страниц из Яндекса. Проверил первую попавшуюся страницу, которая не в Яндексе (о сушке мяса). Так вот, она не уникальна, текст вместе с картинками скопирован подчистую с liveinternet. Это ооочень плохо. Может быть причина выпадения из индекса в этом?

  • Mariblog:

    Привет всем!!! Давно ищу правильный robots.txt никак не могу найти. Посмотрим у Романа. Спасибо за робот.

  • Дмитрий:

    Роман, добрый день. Подскажите, пожалуйста — у вашего робота перед
    Host:
    нет пустой строки, а есть после.
    У меня с точностью до наоборот, пустая строка перед Host:
    а потом без пропусков две строки sitemap

    Можно оставить так? Или?..

    • Роман Ваховский:

      Нет, сделайте как у меня. Host предназначен только для Яндекса, поэтому и пустой строки не должно быть после всех прописанных для него директив. Пустая строка означает конец правил. Перед адресами к картам сайта должна быть пустая строка.

  • Константин:

    Здравствуйте Роман.
    Вот нашел такой робот

    User-agent: Yandex
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-comments
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: */trackback
    Disallow: */feed
    Disallow: /cgi-bin
    Disallow: *?s=
    Host: site.ru

    тут еще такая же схема для всех роботов.

    И автор этого робота пишет, что это самый правильный робот.
    Так же, этот же автор пишет, что вот такой робот, тоже работает как часики, без сбоев.

    User-agent: *
    Disallow: /wp-
    Disallow: *?s=
    Disallow: *?attachment_id=
    Disallow: */feed
    Disallow: /xmlrpc.php
    Disallow: */page/ # все виды пагинации
    Allow: */uploads

    Sitemap: http: //site.ru/sitemap.xml
    Sitemap: http: //site.ru/sitemap2.xml

    Host: www. site.ru

    Эти два робота очень отличаются от Вашего.

    Очень хочется поставить себе нормального робота, а то вообще ни какого нет )

    • Роман Ваховский:

      В первом варианте с моим robots.txt, приведенным в примере, принципиальных отличий нет.
      Второй закрывает не все дубли стандартного WordPress блога да и вложения (attachment) есть далеко не у всех.
      Главное зеркало (Host) следует прописывать строго с www или без www для Яндекса и сразу после всех основных директив. Адреса карт для Sitemap: через пустую строку после всех директив, чтобы другие поисковики тоже их учитывали.
      Тот пример, который приведен у меня, подойдет для любого WordPress блога. Смело им пользуйтесь. Я его составлял по рекомендациям Яндекса и ведущим блогерам рунета. Он приведен как отправная точка по составлению своего robots.txt. Со временем он конечно может слегка изменится (добавятся еще дубли или вы захотите что-то запретить к индексации), как изменился мой настоящий wordpress-book.ru/robots.txt.

  • Ирина:

    Помогите, пожалуйста! Сайту 2 недели, GOOGLE проиндексировал 7 стр, yandex-только главную, но все может быть, жду. Вдруг обнаруживаю, что другие роботы не могут посещеть мои страницы, в частности, Megaindex говорит, что у меня запрет на посещение роботов. Так же примерно ведут себя и другие роботы, кроме yandex, google. Но ни в robots.txt, ни в др. настройках запрета нет. Сайт на WordPress, может, где-то в его настройках или в плагинах… Уже голову сломала, что делать…Все перерыла. Может, кто-то подскажет, сталкивался?

  • Анна Тесса:

    Роман, подскажите, пожалуйста. Robots.txt переписала несколько дней назад. У меня проблема в том, что поиск в Гугл выдает мой сайт на высоких строчках, но всегда ведет на главную. Например, по запросу «Кукла Клеопатра от Paola Reina» он выкинет пользователя на kuklatessa.ru вместо kuklatessa.ru/cleopatra-paola-reina.html
    Что ещё надо поправить? Или ждать, сайту 3 недели.

  • Ирина Сташенко:

    Роман, а как правильно закрыть архивы если я по незнанию, когда начинала делать сайт установила постоянные ссылки таким образом: istashenko.com/2014/04/sample-post/ Теперь понимаю, что это не лучший вариант, но исправлять поздно. И вот, если я закрою Disallow: /20* то получится, что я закрою все посты?

    • Роман Ваховский:

      Пропишите так:
      Disallow: /20*/*/
      Allow: /20*/*/*
      или, что еще проще, пропишите так: Disallow: /20*/*/$

      • Ирина Сташенко:

        Спасибо. А я вот нарыла такой вариант:

        User-agent: ia_archiver
        Disallow: /

        Это годится?

        • Роман Ваховский:

          Точно не узнавал что это, но кроме мнения что этим вы запретите скачивать страницы в веб-архив есть еще и то, что это робот поисковой системы Alexa (в этом случае вы запретите индексацию всего сайта Alexой).
          Лучше прописать старые, проверенные директивы.

  • Светлана:

    Что нужно закрыть, если установлен плагин woocommerce? Я собрала все примеры, какие нашла в интернете. Но не уверена, что сделала это правильно.

    • Роман Ваховский:

      C этим плагином дела не имел и ничего определенного сказать не могу. Посмотрите в своем аккаунте Яндекс.Вебмастера запрещенные страницы к индексации роботом яндекса, но не в robots.txt. Дубли из этого списка и будут теми дублями, которые Вы пропустили.

  • Николай:

    отписал Вам на почту, посмотрите я скинул.

  • Николай:

    Подскажите, я когда в поиск гугла вписываю свой сайт например мойсай.ru, то поиск выдаёт результаты: находит сайт и страницы но в описании пишет «Все права защищены. Запрещено использование материалов сайта без согласия его авторов и обратной ссылки»
    т.е. берёт инфу из footer.php, я в коде ставил тег noindex, но ничего не помогает, может попробовать поставить запись в robot.txt типа:
    Disallow: footer.php?
    Спасибо.

    • Роман Ваховский:

      Здравствуйте, Николай!
      Если вы запретили к индексации каталоги служебных файлов, то Disallow: footer.php прописывать не нужно.
      Поисковики в своей выдаче выдают самые релевантные запросу страницы. Попробуйте в поиск ввести «wordpress-book.ru» и увидите как это будет с моим блогом. Поисковик найдет все наиболее релевантные страницы, где упоминается этот поисковый запрос.
      Упомяните адрес своего сайта на нескольких страницах, как это сделал я, и тогда в выдаче будут эти страницы.

  • Andrey Zondervit:

    У меня к вам вопрос в тему!
    Если после вашего домена, через слэш ввести robot.txt , то получится 404 — то есть страница не найдена! Как вы это сделали?

    • Роман Ваховский:

      Привет Андрей!
      Пропущена буква «S» в конце. Надо вводить не robot.txt а robots.txt

  • Александр:

    Спасибо вам большое!

  • Александр:

    А как закрыть конкретную страничку на wordpress? Есть страничка на вордпресс домен.com/kak-zaregistrirovatsya-v-platezhnoj-sisteme-payza/ как закрыть правильно именно /kak-zaregistrirovatsya-v-platezhnoj-sisteme-payza/ ?

    • Роман Ваховский:

      Пропишите в robots.txt :
      Disallow: /kak-zaregistrirovatsya-v-platezhnoj-sisteme-payza/
      Ссылку на эту страницу в Вашем комментарии убрал. Иначе роботы по ней страницу проиндексируют.

  • Сергей Куприянов:

    Если на сайте вообще отсутствует файл robots.txt, то поисковые системы не индексируют, по крайней мере, не показывают в панели вебмастера проиндексированные технические страницы сайта.
    Если в файле robots.txt нет директив закрытия подобных страниц, то в вебмастере нет перечня проиндексированных технических страниц.
    Вопрос: для чего тогда в файле robots.txt вы применили директивы закрытия от индексации технических страниц (страницы входа в свою админку, страницы ввода логина и пароля и т.п.)?

    • Роман Ваховский:

      Без robots.txt поисковые роботы эти страницы в любом случае индексируют (даже если их нет в вебмастере) и сами исключают их из поисковой выдачи. В robots.txt я прописал эти директивы для облегчения жизни роботу. Индексация пройдет более качественно если роботу не придется ковыряться и в дублях и в технических страницах сайта в том числе. Если ошибаюсь, поправьте.

      • Сергей Куприянов:

        Индексация страниц сайта по определению не может быть не качественной — это работа поискового алгоритма. Чем тут можно помочь или навредить поисковому роботу не совсем понятно.
        Не могу найти первоисточник — откуда идёт рекомендация по закрытию в роботс технических страниц сайта (в инструкциях по директивам об этом ни слова).

        О дублях доступа страниц тоже нет понятной инфы: поисковики очень хорошо знают как движки генерируют дубли страниц, да и админ не все свои дубли закрывает от индексации (это и в вашем варианте роботс тоже нет) и поэтому не понятно почему поисковики ругают за дубли. Дубли одной страницы одного сайта всё — равно имеют разные URL.
        Или я не корректно ставлю вопросы, как вы считаете?

        • Роман Ваховский:

          Под некачественной индексацией я имел в виду то, что робот иногда не видит более ранние статьи. Индексация их происходит намного позже.
          Рекомендации закрывать технические страницы и дубли я дал после тщательного анализа robots.txt многих уважаемых блогов на WP. Посмотрите их сами. А то что Яндекс вебмастер ничего об этом не говорит еще ничего не значит. Вот если бы он прямо сказал, что дубли и технические страницы блогов WP закрывать в роботсе не надо…
          Вы не согласны?
          З.Ы. Директива «Host:», прописанная в robots.txt вашего блога, должна быть в конце списка директив под директивой «User-agent: Yandex», и предназначена только для Яндекса. В таком виде как сейчас Яндекс ее проигнорирует.

  • Antonio:

    Здравствуйте!
    У меня есть простенький 4-х страничный сайт.
    Мне кажется что мне нужно чтобы индексировались только 2 страницы: мойсайт/home и мойсайт/sauna. Другие страницы со схемой проезда и обратной связью для поиска неинетерсы.
    Что мне надо прописать в файле для этого? Я думаю что совсем мало строчек будет?
    Сайт можно сказать без движка, собран в конструкторе на REG.RU.
    В последствии планирую переделать уже на движке WP.

    Да, и ещё. Назваоние сайта у меня в кирилице в домене .РФ. Надо ли мне его переводить в паникод чтобы записать в файле robots?

    • Роман Ваховский:

      Не советую исключать из поиска эти страницы. Поисковики должны видеть, что на вашем сайте сделано все для удобства клиентов. А интересны они поисковикам или нет, это другой вопрос. Кроме того они же не дубли.
      Исключить страницу из индекса можно вставкой в роботс — Disallow: /страница/
      Что касается РФ, думаю что боты кирилицу не понимают. А что делать с этим дальше ничего посоветовать не могу. Не сталкивался.

  • Светлана:

    Роман,спасибо за ответ! Сама пытаюсь понять принципы. Решила воспользоваться Вашими советами и подкорректировать свой robots. Видела не один раз блоги со 100 % индексом, думала, что это от robots.txt зависит. Хотела добиться того же, но после Вашего ответа понимаю, что пустое это все. Но со временем нужно разбираться. Спасибо Вам!

  • Светлана:

    Роман, добрый день! Я как раз последние дни интересовалась файлами robots.txt на блогах и мнения у всех разные. Вот Вы мне скажите, если Вы закрыли все дубли на своем сайте, тогда почему у Вас индекс Google всего 6 %? Я так понимаю, что остальные 94 % — это дубли и не проиндексированные страницы? У меня поэтому и возникает вопрос. Уверена, что у Вас уникальные статьи (как и у меня), значит дело не в robots?

    • Роман Ваховский:

      Здравствуйте Татьяна!
      Только что приехал с дачи и спешу ответить.
      На данный момент Гуглом проиндексировано 1740 страниц.
      6% от этого числа 104 страницы, которые попали в основной индекс или в выдачу. Опубликовано всего 106 записей и 6 страниц.
      94% это дубли и почему то не попавшие в индекс несколько страниц.
      Почему эти несколько страниц в выдачу не попали пока не знаю. Буду разбираться. Потом, как нибудь :-).

    • Сергей Куприянов:

      Конечно, дело не в файле robots.txt
      6% — не под фильтрами Google (это страницы в основном индексе)
      94% — это дополнительный индекс, песочница (сюда попадает всё, что проиндексировано на сайте, в том числе ленты коротких записей, комменты, ответы на комменты и т.п.), это не дубли 😉
      Уникальную (оригинальную) статью нужно обязательно связать со своим авторством в борьбе с плагиатом и эту возможность Google даёт.

  • Tatiana:

    Роман,мне не понятен следующий момент:/wp-content/.В этой же папке находятся все статьи и мы эту папку вторым слэшем закрываем?
    Что такое wp?
    Если у меня нет ленты RSS надо убрать тогда feed из robots.txt? У меня нет ленты,а feed стоит.
    Почему в одних случаях второй слэш есть,а в других нет?В каких случаях надо ставить второй слэш?
    Дубли контента авторов блога — о каких авторах идет речь?Два человека имеют один блог и пишут в нем статьи и тогда надо применять Disallow:/author? Я правильно поняла?

    • Роман Ваховский:

      Татьяна, срочно убери пустые строчки в своем роботсе после каждого User-agent: *. С пустыми строками робот думает что правил для него нет.
      Попробую ответить.
      1. Таня, ты ставишь меня в тупик. Где именно в wp-content хранятся статьи и в каком виде? Кроме плагинов, файлов тем, картинок и другого мусора я там ничего не нашел.
      2. wp — сокращенно WordPress :-). В нашем случае это начало имени папки.
      3. Лента есть у любого блога WP. Ты наверное фидбернер имела в виду. Так что feed оставляй.
      4. Если на блоге даже один автор, то контент дублируется на странице сайт.ru/author/admin/. Нажми на Автор:Роман Ваховский под заголовком к любой моей статье и увидишь. У тебя имя автора не отображается под заголовками (особенность темы наверное), поэтому тебе это не надо.
      5. Я ставил второй слэш, если закрывал папку со всем содержимым в ней и продолжения в адресе не подразумевалось. Потом более подробно распишу этот спорный вопрос.

      • Евгений:

        А что значит : «…срочно убери пробелы в своем роботсе после каждого User-agent: *»

        • Роман Ваховский:

          Опечаточка вышла, я имел в виду пустые строки. У Татьяны раньше ниже всех User-agent: были пустые строчки. Исправил, чтобы не вводить в заблуждение.

Добавить комментарий

Все права защищены © 2011-2024 WordPress-book.ru

Копирование материалов разрешено только с размещением открытой обратной ссылки на источник.