О том, как сделать правильный robots.txt для WordPress написано уже достаточно. Однако, чтобы угодить своим читателям, я решил опубликовать свой пост на эту тему. Тем более, что моими коллегами эта тема раскрыта не полностью и тут можно многое добавить.

Правильный robots.txt для WordPress

Что такое robots.txt и зачем он нужен?

robots.txt это текстовый документ, составленный в обыкновенном блокноте, расположенный в корневой директории блога и содержащий в себе инструкции по индексации для поисковых роботов. Проще говоря, что индексировать, а что нет. Наличие этого файла является обязательным условием для качественной внутренней поисковой оптимизации блога.

Как известно, блоги на платформе WordPress содержат в себе множество дублей (копий основного содержимого блога), а также целый набор служебных файлов. Дубли контента снижают его уникальность на домене и поисковые роботы могут наложить на блог серьезные штрафные санкции.

Чтобы повысить уникальность контента, облегчить поисковым ботам работу и тем самым улучшить качество индексации блога, нам и нужен robots.txt.

robots.txt для WordPress

Правильный robots.txt для WordPress

Рассмотрим на примере моего robots.txt, как его правильно оформить и что в него должно входить.

Скачайте его себе на жесткий диск по этой ссылке и откройте для редактирования. В качестве редактора текстовых файлов настоятельно рекомендую использовать Notepad++.

Правильный robots.txt для WordPress

Строки 6,7: Принято считать, что необходимо закрывать поисковым роботам доступ к служебным файлам в папках "wp-content" и "wp-includes". Но, Гугл по этому поводу нам говорит следующее:

Чтобы обеспечить правильное индексирование и отображение страниц, нужно предоставить роботу Googlebot доступ к JavaScript, CSS и графическим файлам на сайте. Робот Googlebot должен видеть ваш сайт как обычный пользователь. Если в файле robots.txt закрыт доступ к этим ресурсам, то Google не удастся правильно проанализировать и проиндексировать содержание. Это может ухудшить позиции вашего сайта в Поиске.

Таким образом, для Googlebot не рекомендуется запрещать доступ к файлам в этих папках.

Строка 40: Сразу пропишите для директивы "Host" главное зеркало своего сайта для Яндекса. Учтите, что, если адрес сайта начинается с www, то и писать нужно с www или, другими словами, именно так, как UКL виден в адресной строке браузера.

Строки 42,43: Если у Вас еще не создана карта сайта, обязательно сделайте ее. В пути к файлам карты вместо моего адреса wordpress-book.ru пропишите свой. Этот ход сделает индексацию блога поисковиками полной и увеличит ее скорость.

Уже сейчас, можно сказать, что ваш правильный robots.txt для WordPress готов. В таком виде он подойдет для абсолютного большинства блогов и сайтов. Останется только закачать его в корень блога (обычно в папку public_html).

robots.txt

Сделать robots.txt для блога можно и с помощью плагина, например, PC Robots.txt. С его помощью вы сможете создать и редактировать свой robots.txt прямо в админке блога. Но я не советую использовать плагины для создания robots.txt, чтобы исключить лишнюю нагрузку на блог.

Содержание robots.txt любого блога или сайта, если он конечно есть, вы всегда можете посмотреть. Для этого достаточно в адресной строке браузера ввести к нему путь – http://wordpress-book.ru/robots.txt.

Ниже приведена информация по содержанию этого документа и некоторые рекомендации по его оформлению и анализу.

Звездочка "*", прописанная в тексте robots.txt, означает, что на ее месте допускается последовательность любых символов.

Директива "User-agent" определяет, для каких поисковых роботов даны указания по индексации, прописанные под ней. Таким образом, "User-agent: *" (строка 1) указывает, что инструкции, прописанные под ней, предназначены для всех поисковых систем.

Строка 21: Персонально для Яндекса под "User-agent: Yandex" дублируем список этих команд. Дублирование инструкций для Яндекса дает нам гарантию их выполнения поисковой системой.

Директива "Disallow" запрещает индексацию прописанного для нее каталога или страниц. Директива "Allow" разрешает. Командой "Disallow: /wp-content/" (строка 7) я запретил индексацию служебного каталога "wp-content" на сервере и соответственно всех папок в ней с их содержимым, но командой "Allow: /wp-content/uploads" (строка 8) разрешил индексировать все картинки в папке "upload" каталога "wp-content". Так как "Allow" является приоритетной директивой для поисковых роботов, то в индекс попадут только изображения папки "upload" каталога "wp-content".

Другие блогеры для директивы "Disallow" советуют еще дополнительно прописывать следующие запреты:

-   /comments - закрыть от индексации комментарии. Для себя не вижу смысла это делать. Зачем закрывать содержащийся в комментариях уникальный контент;

- /comment-page-* - другое дело древовидные комментарии. Когда комментарии не помещаются на одну страницу (их количество вы проставили в настройках админки), создается дубль страницы типа wordpress-book.ru/.../comment-page-1.  Эти дубли конечно-же надо закрывать.

-   /xmlrpc.php - служебный файл для удаленных вызовов. У меня его нет и соответственно нет индексации и без запрета;

-   /webstat/ - папка со статистикой сайта. Эта папка есть тоже далеко не у всех.

Нельзя не упомянуть про редко используемую, но очень полезную директиву - "Crawl-delay". Она задает роботу паузу во времени в секундах между скачиванием страниц, прописывается после групп директив "Disallow" и "Allow" и используется в случае повышенной нагрузки на сервер. Прописью "Crawl-delay: 2" я задал эту паузу в 2 секунды.  При нормальной работе сервера качество индексации не пострадает, а при пиковых нагрузках не ухудшится.

Некоторым вебмастерам может понадобится запретить индексацию файлов определенного  типа, например, с расширением pdf. Для этого пропишите - "Disallow: *.pdf$". Или поместите все файлы, индексацию которых требуется запретить, в предварительно созданную новую папку, например, pdf, и пропишите "Disallow: /pdf/".

При необходимости запрета индексации всей рубрики, такое бывает ,например, при публикации в нее чужих интересных записей, пропишите - "Disallow: /nazvanie-rubriki/*", где "nazvanie-rubriki", как вы уже догадались - название рубрики, записи которой поисковикам индексировать не следует.

Тем, кто зарабатывает на своем блоге размещением контекстной рекламы в партнерстве с Google AdSense, будет не лишним прописать следующие две директивы:

User-agent: Mediapartners-Google
Disallow:

Это поможет роботу AdSense избежать ошибок сканирования страниц сайта и подбирать для них более релевантные объявления.

wp-content/uploads/2014/02/YouTube_Downloader_dlya_Ope.jpg",tid:"OIP.M3a4a31010ee6a500049754479585407do0

Обнаружил у себя только что вот такой вот новый вид дублей в Яндекс Вебмастере. 96 штук уже накопилось и это не предел. А ведь совсем недавно у wordpress-book.ru с дублями был полный порядок. Есть подозрение, что шлак с идентификатором tid:"OIP появляется в индексе поисковика после скачивания картинок роботом Яндекса. Если не лень, посмотрите сколько таких несуществующих страниц разных сайтов уже участвуют в поиске.

Понятно, что с этим чудом надо что-то делать. Достаточно добавить запрещающую директиву - "Disallow: /wp-content/uploads/*.jpg*tid*" в robots.txt. Если на сайте есть картинки png, gif и т.д., добавьте директивы с соответствующими расширениями изображений.

При редактировании robots.txt, учтите, что:

-   перед каждой новой директивой "User-agent" должна быть пустая строка, которая обозначает конец инструкций для предыдущего поисковика. И соответственно после "User-agent" и между "Disallow" и "Allow" пустых строк быть не должно;

-   запретом индексации страниц в результатах поиска "Disallow: /*?*" вы заодно можете случайно запретить индексацию всего контента, если адреса страниц вашего блога заданы по умолчанию со знаком вопроса в виде - /?p=123. Советую сделать для адресов ЧПУ (человеко понятные урлы :-)). Для этого в настройках постоянных ссылок выберите произвольный шаблон и поставьте плагин Rus-to-Lat.

Анализ robots.txt

Теперь, когда ваш robots.txt отредактирован и залит на сервер, остается только проверить, правильно ли он работает.

Зайдите в свой аккаунт ЯндексВебмастер и перейдите "Настройки индексирования" → "Анализ robots.txt". Нажмите на кнопку "Загрузить robots.txt с сайта" и далее на кнопку "Проверить".

Анализ robots.txt

Если Яндексу понравится ваш файл, под кнопкой "Проверить" появится сообщение, примерно как на картинке выше.

Недавно в инструментах для вебмастеров Гугла появилось очень полезная функция - "Инструмент проверки файла robots.txt". Можно проверить свой файл на наличие ошибок и предупреждений.

 

Просто в своем аккаунте перейдите "Сканирование" → "Инструмент проверки файла robots.txt".

Через некоторое время, когда бот Яндекса скачает ваш robots.txt, проанализируйте в Яндекс Вебмастере адреса страниц вошедших в индекс и исключенных из него в robots.txt. Вошедшие в индекс дубли срочно запрещайте к индексации.

Теперь ваш robots.txt для WordPress правильный и можно поставить еще одну галочку под пунктом выполнения задач по внутренней поисковой оптимизации блога.

С уважением, Роман Ваховский.

Хороший человек всегда нажмет на кнопку!
Комментарий > Благодарность > Ссылка на секретную страницу блога

91 комментарий: Правильный robots.txt для WordPress

Страница 1 из 11
  • Tatiana говорит:

    Роман,мне не понятен следующий момент:/wp-content/.В этой же папке находятся все статьи и мы эту папку вторым слэшем закрываем?
    Что такое wp?
    Если у меня нет ленты RSS надо убрать тогда feed из robots.txt? У меня нет ленты,а feed стоит.
    Почему в одних случаях второй слэш есть,а в других нет?В каких случаях надо ставить второй слэш?
    Дубли контента авторов блога - о каких авторах идет речь?Два человека имеют один блог и пишут в нем статьи и тогда надо применять Disallow:/author? Я правильно поняла?

    • Роман Ваховский говорит:

      Татьяна, срочно убери пустые строчки в своем роботсе после каждого User-agent: *. С пустыми строками робот думает что правил для него нет.
      Попробую ответить.
      1. Таня, ты ставишь меня в тупик. Где именно в wp-content хранятся статьи и в каком виде? Кроме плагинов, файлов тем, картинок и другого мусора я там ничего не нашел.
      2. wp - сокращенно WordPress :-). В нашем случае это начало имени папки.
      3. Лента есть у любого блога WP. Ты наверное фидбернер имела в виду. Так что feed оставляй.
      4. Если на блоге даже один автор, то контент дублируется на странице сайт.ru/author/admin/. Нажми на Автор:Роман Ваховский под заголовком к любой моей статье и увидишь. У тебя имя автора не отображается под заголовками (особенность темы наверное), поэтому тебе это не надо.
      5. Я ставил второй слэш, если закрывал папку со всем содержимым в ней и продолжения в адресе не подразумевалось. Потом более подробно распишу этот спорный вопрос.

      • Евгений говорит:

        А что значит : "...срочно убери пробелы в своем роботсе после каждого User-agent: *"

        • Роман Ваховский говорит:

          Опечаточка вышла, я имел в виду пустые строки. У Татьяны раньше ниже всех User-agent: были пустые строчки. Исправил, чтобы не вводить в заблуждение.

  • Светлана говорит:

    Роман, добрый день! Я как раз последние дни интересовалась файлами robots.txt на блогах и мнения у всех разные. Вот Вы мне скажите, если Вы закрыли все дубли на своем сайте, тогда почему у Вас индекс Google всего 6 %? Я так понимаю, что остальные 94 % - это дубли и не проиндексированные страницы? У меня поэтому и возникает вопрос. Уверена, что у Вас уникальные статьи (как и у меня), значит дело не в robots?

    • Роман Ваховский говорит:

      Здравствуйте Татьяна!
      Только что приехал с дачи и спешу ответить.
      На данный момент Гуглом проиндексировано 1740 страниц.
      6% от этого числа 104 страницы, которые попали в основной индекс или в выдачу. Опубликовано всего 106 записей и 6 страниц.
      94% это дубли и почему то не попавшие в индекс несколько страниц.
      Почему эти несколько страниц в выдачу не попали пока не знаю. Буду разбираться. Потом, как нибудь :-).

    • Сергей Куприянов говорит:

      Конечно, дело не в файле robots.txt
      6% - не под фильтрами Google (это страницы в основном индексе)
      94% - это дополнительный индекс, песочница (сюда попадает всё, что проиндексировано на сайте, в том числе ленты коротких записей, комменты, ответы на комменты и т.п.), это не дубли 😉
      Уникальную (оригинальную) статью нужно обязательно связать со своим авторством в борьбе с плагиатом и эту возможность Google даёт.

  • Светлана говорит:

    Роман,спасибо за ответ! Сама пытаюсь понять принципы. Решила воспользоваться Вашими советами и подкорректировать свой robots. Видела не один раз блоги со 100 % индексом, думала, что это от robots.txt зависит. Хотела добиться того же, но после Вашего ответа понимаю, что пустое это все. Но со временем нужно разбираться. Спасибо Вам!

  • Antonio говорит:

    Здравствуйте!
    У меня есть простенький 4-х страничный сайт.
    Мне кажется что мне нужно чтобы индексировались только 2 страницы: мойсайт/home и мойсайт/sauna. Другие страницы со схемой проезда и обратной связью для поиска неинетерсы.
    Что мне надо прописать в файле для этого? Я думаю что совсем мало строчек будет?
    Сайт можно сказать без движка, собран в конструкторе на REG.RU.
    В последствии планирую переделать уже на движке WP.

    Да, и ещё. Назваоние сайта у меня в кирилице в домене .РФ. Надо ли мне его переводить в паникод чтобы записать в файле robots?

    • Роман Ваховский говорит:

      Не советую исключать из поиска эти страницы. Поисковики должны видеть, что на вашем сайте сделано все для удобства клиентов. А интересны они поисковикам или нет, это другой вопрос. Кроме того они же не дубли.
      Исключить страницу из индекса можно вставкой в роботс - Disallow: /страница/
      Что касается РФ, думаю что боты кирилицу не понимают. А что делать с этим дальше ничего посоветовать не могу. Не сталкивался.

  • Сергей Куприянов говорит:

    Если на сайте вообще отсутствует файл robots.txt, то поисковые системы не индексируют, по крайней мере, не показывают в панели вебмастера проиндексированные технические страницы сайта.
    Если в файле robots.txt нет директив закрытия подобных страниц, то в вебмастере нет перечня проиндексированных технических страниц.
    Вопрос: для чего тогда в файле robots.txt вы применили директивы закрытия от индексации технических страниц (страницы входа в свою админку, страницы ввода логина и пароля и т.п.)?

    • Роман Ваховский говорит:

      Без robots.txt поисковые роботы эти страницы в любом случае индексируют (даже если их нет в вебмастере) и сами исключают их из поисковой выдачи. В robots.txt я прописал эти директивы для облегчения жизни роботу. Индексация пройдет более качественно если роботу не придется ковыряться и в дублях и в технических страницах сайта в том числе. Если ошибаюсь, поправьте.

      • Сергей Куприянов говорит:

        Индексация страниц сайта по определению не может быть не качественной - это работа поискового алгоритма. Чем тут можно помочь или навредить поисковому роботу не совсем понятно.
        Не могу найти первоисточник - откуда идёт рекомендация по закрытию в роботс технических страниц сайта (в инструкциях по директивам об этом ни слова).

        О дублях доступа страниц тоже нет понятной инфы: поисковики очень хорошо знают как движки генерируют дубли страниц, да и админ не все свои дубли закрывает от индексации (это и в вашем варианте роботс тоже нет) и поэтому не понятно почему поисковики ругают за дубли. Дубли одной страницы одного сайта всё - равно имеют разные URL.
        Или я не корректно ставлю вопросы, как вы считаете?

        • Роман Ваховский говорит:

          Под некачественной индексацией я имел в виду то, что робот иногда не видит более ранние статьи. Индексация их происходит намного позже.
          Рекомендации закрывать технические страницы и дубли я дал после тщательного анализа robots.txt многих уважаемых блогов на WP. Посмотрите их сами. А то что Яндекс вебмастер ничего об этом не говорит еще ничего не значит. Вот если бы он прямо сказал, что дубли и технические страницы блогов WP закрывать в роботсе не надо...
          Вы не согласны?
          З.Ы. Директива "Host:", прописанная в robots.txt вашего блога, должна быть в конце списка директив под директивой "User-agent: Yandex", и предназначена только для Яндекса. В таком виде как сейчас Яндекс ее проигнорирует.

  • Александр говорит:

    А как закрыть конкретную страничку на wordpress? Есть страничка на вордпресс домен.com/kak-zaregistrirovatsya-v-platezhnoj-sisteme-payza/ как закрыть правильно именно /kak-zaregistrirovatsya-v-platezhnoj-sisteme-payza/ ?

    • Роман Ваховский говорит:

      Пропишите в robots.txt :
      Disallow: /kak-zaregistrirovatsya-v-platezhnoj-sisteme-payza/
      Ссылку на эту страницу в Вашем комментарии убрал. Иначе роботы по ней страницу проиндексируют.

  • Andrey Zondervit говорит:

    У меня к вам вопрос в тему!
    Если после вашего домена, через слэш ввести robot.txt , то получится 404 - то есть страница не найдена! Как вы это сделали?

    • Роман Ваховский говорит:

      Привет Андрей!
      Пропущена буква "S" в конце. Надо вводить не robot.txt а robots.txt

  • Николай говорит:

    Подскажите, я когда в поиск гугла вписываю свой сайт например мойсай.ru, то поиск выдаёт результаты: находит сайт и страницы но в описании пишет "Все права защищены. Запрещено использование материалов сайта без согласия его авторов и обратной ссылки"
    т.е. берёт инфу из footer.php, я в коде ставил тег noindex, но ничего не помогает, может попробовать поставить запись в robot.txt типа:
    Disallow: footer.php?
    Спасибо.

    • Роман Ваховский говорит:

      Здравствуйте, Николай!
      Если вы запретили к индексации каталоги служебных файлов, то Disallow: footer.php прописывать не нужно.
      Поисковики в своей выдаче выдают самые релевантные запросу страницы. Попробуйте в поиск ввести "wordpress-book.ru" и увидите как это будет с моим блогом. Поисковик найдет все наиболее релевантные страницы, где упоминается этот поисковый запрос.
      Упомяните адрес своего сайта на нескольких страницах, как это сделал я, и тогда в выдаче будут эти страницы.

  • Светлана говорит:

    Что нужно закрыть, если установлен плагин woocommerce? Я собрала все примеры, какие нашла в интернете. Но не уверена, что сделала это правильно.

    • Роман Ваховский говорит:

      C этим плагином дела не имел и ничего определенного сказать не могу. Посмотрите в своем аккаунте Яндекс.Вебмастера запрещенные страницы к индексации роботом яндекса, но не в robots.txt. Дубли из этого списка и будут теми дублями, которые Вы пропустили.

  • Ирина Сташенко говорит:

    Роман, а как правильно закрыть архивы если я по незнанию, когда начинала делать сайт установила постоянные ссылки таким образом: istashenko.com/2014/04/sample-post/ Теперь понимаю, что это не лучший вариант, но исправлять поздно. И вот, если я закрою Disallow: /20* то получится, что я закрою все посты?

    • Роман Ваховский говорит:

      Пропишите так:
      Disallow: /20*/*/
      Allow: /20*/*/*
      или, что еще проще, пропишите так: Disallow: /20*/*/$

      • Ирина Сташенко говорит:

        Спасибо. А я вот нарыла такой вариант:

        User-agent: ia_archiver
        Disallow: /

        Это годится?

        • Роман Ваховский говорит:

          Точно не узнавал что это, но кроме мнения что этим вы запретите скачивать страницы в веб-архив есть еще и то, что это робот поисковой системы Alexa (в этом случае вы запретите индексацию всего сайта Alexой).
          Лучше прописать старые, проверенные директивы.

  • Анна Тесса говорит:

    Роман, подскажите, пожалуйста. Robots.txt переписала несколько дней назад. У меня проблема в том, что поиск в Гугл выдает мой сайт на высоких строчках, но всегда ведет на главную. Например, по запросу "Кукла Клеопатра от Paola Reina" он выкинет пользователя на kuklatessa.ru вместо kuklatessa.ru/cleopatra-paola-reina.html
    Что ещё надо поправить? Или ждать, сайту 3 недели.

  • Ирина говорит:

    Помогите, пожалуйста! Сайту 2 недели, GOOGLE проиндексировал 7 стр, yandex-только главную, но все может быть, жду. Вдруг обнаруживаю, что другие роботы не могут посещеть мои страницы, в частности, Megaindex говорит, что у меня запрет на посещение роботов. Так же примерно ведут себя и другие роботы, кроме yandex, google. Но ни в robots.txt, ни в др. настройках запрета нет. Сайт на WordPress, может, где-то в его настройках или в плагинах... Уже голову сломала, что делать...Все перерыла. Может, кто-то подскажет, сталкивался?

  • Константин говорит:

    Здравствуйте Роман.
    Вот нашел такой робот

    User-agent: Yandex
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-comments
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: */trackback
    Disallow: */feed
    Disallow: /cgi-bin
    Disallow: *?s=
    Host: site.ru

    тут еще такая же схема для всех роботов.

    И автор этого робота пишет, что это самый правильный робот.
    Так же, этот же автор пишет, что вот такой робот, тоже работает как часики, без сбоев.

    User-agent: *
    Disallow: /wp-
    Disallow: *?s=
    Disallow: *?attachment_id=
    Disallow: */feed
    Disallow: /xmlrpc.php
    Disallow: */page/ # все виды пагинации
    Allow: */uploads

    Sitemap: http: //site.ru/sitemap.xml
    Sitemap: http: //site.ru/sitemap2.xml

    Host: www. site.ru

    Эти два робота очень отличаются от Вашего.

    Очень хочется поставить себе нормального робота, а то вообще ни какого нет )

    • Роман Ваховский говорит:

      В первом варианте с моим robots.txt, приведенным в примере, принципиальных отличий нет.
      Второй закрывает не все дубли стандартного WordPress блога да и вложения (attachment) есть далеко не у всех.
      Главное зеркало (Host) следует прописывать строго с www или без www для Яндекса и сразу после всех основных директив. Адреса карт для Sitemap: через пустую строку после всех директив, чтобы другие поисковики тоже их учитывали.
      Тот пример, который приведен у меня, подойдет для любого WordPress блога. Смело им пользуйтесь. Я его составлял по рекомендациям Яндекса и ведущим блогерам рунета. Он приведен как отправная точка по составлению своего robots.txt. Со временем он конечно может слегка изменится (добавятся еще дубли или вы захотите что-то запретить к индексации), как изменился мой настоящий wordpress-book.ru/robots.txt.

  • Дмитрий говорит:

    Роман, добрый день. Подскажите, пожалуйста - у вашего робота перед
    Host:
    нет пустой строки, а есть после.
    У меня с точностью до наоборот, пустая строка перед Host:
    а потом без пропусков две строки sitemap

    Можно оставить так? Или?..

    • Роман Ваховский говорит:

      Нет, сделайте как у меня. Host предназначен только для Яндекса, поэтому и пустой строки не должно быть после всех прописанных для него директив. Пустая строка означает конец правил. Перед адресами к картам сайта должна быть пустая строка.

  • Mariblog говорит:

    Привет всем!!! Давно ищу правильный robots.txt никак не могу найти. Посмотрим у Романа. Спасибо за робот.

  • Руслан говорит:

    Роман, добрый день! Спасибо за статью! Последовал Вашему совету, сделал такой же robots.txt на моем проекте http://kak-eto-sdelano.ru. Но после индексации яндекс.вэбмастер показал, что из-за роботса не смог проиндексировать вполне себе правильные посты. У меня в настройках стоят ЧПУ, а яндекс заблокировал урлы вида /?p=102 В итоге, из 116 загруженных 84 под запретом, из которых 23 - это короткие урлы, а остальное страницы тэгов. Вопрос: Есть ли смысл запрещать через роботс урлы вида /?p=*, если они все равно ведут на ЧПУ? И когда яндекс заново считает роботс, чтобы проиндексировать убранные страницы? Спасибо!

    • Роман Ваховский говорит:

      Дублей (соплей, как их стало модно называть) вида /?p=* очень много на любом WordPress проекте. А дубли закрывать нужно в любом случае (страницы тэгов те же дубли). Так что смысл есть, и очень здравый смысл.
      Робот Яндекса читает robots.txt при каждом заходе на сайт. Но после захода все равно надо ждать переиндексации, примерно неделю.
      Сейчас Ваш robots.txt не похож на мой. Не знаю, что там было прописано, что Яндекс выкинул множество страниц из Яндекса. Проверил первую попавшуюся страницу, которая не в Яндексе (о сушке мяса). Так вот, она не уникальна, текст вместе с картинками скопирован подчистую с liveinternet. Это ооочень плохо. Может быть причина выпадения из индекса в этом?

  • Денис говорит:

    Спасибо искал как закрыть дубли в архивах, и у Вас нашёл подсказку,всё работает.

  • Таня говорит:

    Добрый день!
    Мой роботс выглядить так:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed

    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Host: lsclub.ru

    Sitemap: lsclub.ru/sitemap.xml.gz
    Sitemap: lsclub.ru/sitemap.xml

    Все бы ничего, но есть куча дублей. Связываю это с тем, что установлен плагин woocommerce вот например на главную вот такие дубли получились
    lsclub.ru/?add-to-cart=312
    lsclub.ru/?add-to-cart=206
    lsclub.ru/?add-to-cart=356
    lsclub.ru/?add-to-cart=204

    Вопрос такой: как запретить к индексации эти дубли?
    Заранее спасибо, если найдете возможность ответить мне!

    • Роман Ваховский говорит:

      Очень просто, добавьте в файл Disallow: /?*, и эти дубли уйдут.

  • Сергей говорит:

    ну и жесть советы - еще бы туда данные к паролям в Disallow добавили. Абсолютно куча ненужных директив. Закрывают то, что может проиндексироваться по ссылкам с сайта, а вы светите конфиденциальную инфу, которая и не проиндексируется.
    Во-вторых, скачал файл по ссылке с готовым роботсом - он у вас кривой: всё в одну строчку написано.

    • Роман Ваховский говорит:

      ??????? Какие директивы по вашему лишние?
      Скачал роботс, открыл, все в порядке. И поисковики его съедают.

  • Кристина говорит:

    Здравствуйте, скачал карту в корень сайта после этого а консоли показывает такое надпись.
    Конфликт с неизвестным файлом / и путь к карту сайта.Как поступить в этом случае.Спасибо

    • Роман Ваховский говорит:

      На Вашем сайте и карта сайта (ее, карту, никуда закачивать не надо), и robots.txt функционируют нормально. Какой файл вы закачали в корень сайта?

  • Наиль говорит:

    Роман в в инструментах для вебмастеров Гугла у меня есть ошибка прилагаю скриншот объясните пожалуйста что за ошибка, как её исправить?

    • Роман Ваховский говорит:

      Забыли скриншот приложить ). В статье из robots.txt я убрал две директивы для робота гугла. Скачайте новый robots.txt.

  • mihail говорит:

    Спасибо Роман, ответьте только на вопрос, зачем прописывать роботу два пути к сайтмапу-что это за .gz?
    Заранее спасибо

    • Роман Ваховский говорит:

      Это сжатая gzip'ом карта в xml формате. Роботы будут быстрее ее скачивать для обработки.
      Вставьте этот (свой) адрес (https://wordpress-book.ru/sitemap.xml.gz) в адресную строку браузера, если откроется карта сайта, то все в порядке.

  • Евгений говорит:

    Доброго времени суток, Роман!
    Хочу Вас поблагодарить за предоставленную статью!
    У меня вот только на сайте по адресу: сайт/sitemap.xml.gz
    Выдает следующую ошибку:
    В firefox: "Ошибка синтаксического анализа XML: некорректно".(плагин Google XML Sitemaps)
    В эксплоере пишет "ошибка 404 - не найдено"
    Подскажите пожалуйста, где искать проблему?

    • Роман Ваховский говорит:

      Трудно сказать со всей определенностью. Надо ковыряться по месту. Больше ничего не пишет?
      Посмотрите, правильно ли настроен плагин https://wordpress-book.ru/administrirovanie/google-xml-sitemaps/

  • Алексей говорит:

    Доброго времени суток, Роман!

    Не пойму в чем дело? В robots стоит хост с www, а яндекс пишет - Последняя проверка показала, что указанный вами домен http://www.sait.ru не может быть выбран в качестве главного зеркала. Поставил Ваш robots.txt и добавил еще - Disallow: /*add-to-cart=* так майл выдает что - Страницы сайта помечены тэгом <meta name="robots" content="noindex"/ хотя закрывал только страницу контакты. В чем причина не пойму.

    Заранее спасибо

    • Роман Ваховский говорит:

      Здравствуйте, Алексей!
      1. Сами разобрались с индексацией? В данный момент разрешена индексация всех страниц -
      2. Яндекс глючит. Это в вебмастере так определили. Напишите Платонам в службу поддержки Яндекса.

  • Антон говорит:

    Добрый день! Не могли бы вы мне помочь. Скачал ваш файл, отредактировал его под свой сайт и загрузил. После этого залил на сайт статью krimnovostroi.ru/2015/08/20/zhk-victory-hills и попытался ее добавить в аддурилку яндекса. Пишет "Указанный URL запрещен к индексации в файле robots.txt на сайте krimnovostroi.ru". Может быть, я там что-то не так отредактировал? Буду очень благодарен за помощь, если подскажите, как устранить неполадку. И, если возможно, гляньте, пожалуйста весь файл. Мало ли еще где-то напорол.

    • Роман Ваховский говорит:

      Сейчас в роботсе никаких ограничений на индексацию статей с такими хитрыми URL нет. В адурилку последняя статья успешно добавлена. У Вас, наверное, была прописана директива Disallow: /20*/*, как у меня и Вы ее уже убрали. Верно?

      • Антон говорит:

        Взял другой роботс. Кстати, у меня тоже при проверке вашего файла в Вебмастере Яндекса "13: Noindex: /*?*
        Обнаружена неизвестная директива" выскакивало.

        • Роман Ваховский говорит:

          По этому недоразумению в 13 строке все прояснилось. Отписался тремя комментариями ниже.

  • Султан говорит:

    Потихоньку ковыряю сайт.
    Решил поставить ваш robots.txt. Странно, что при проверки яндексом он ругается следующим образом:
    "
    13: Noindex: /*?*
    Обнаружена неизвестная директива
    "

    Подскажите - с чего вдруг?

    • Роман Ваховский говорит:

      И правильно ругается. Не такой директивы Noindex: /*?*. Уберите ее с robots.txt. В моем роботсе, кстати, нет такой "директивы".

  • Султан говорит:

    Зря вы так. Как раз по Вашей ссылке в статье 13 строка стоит данная директива!

    • Роман Ваховский говорит:

      Да, уж ......... И правда, была там эта бяка (Noindex: /*?* в 13 строке) (((((((. Как она туда попала, понятия не имею. Сам туда ее прописать не мог, иначе она была-бы на скрине и описание было-бы к этой псевдо директивы.. Видимо, происки конкурентов )))))). Все исправил. Извиняюсь за доставленные неудобства.

      • Роман Ваховский говорит:

        Проверил файл в бэкапе годовалой давности. Нету там Noindex: /*?*. Пора менять пароли.

  • Игорь говорит:

    У меня вообще нет робота, если я сделаю точно также как вы, можете мне "путь" сказать в какой файл этого робота установить?

    • Роман Ваховский говорит:

      Игорь, в корень блога, в папку public_html. В статье написано. Можно по ftp загрузить.

  • Сергей говорит:

    Ох уж эти дубли... Жаль вовремя не наткнулся на такой материл о robots.txt и не поубирал все эти Noindex: /*?* и им подобные, в результате теперь приходится начинать практически с нуля. Дубли просто убили посещаемость

  • andrey.yamchenko@yandex.ru говорит:

    Роман, добрый день!Перепробовал все, но что-то у меня не получается, подскажите пожалуйста!
    Вот мой robots-txt :

    User-agent: *
    Allow: /wp-content/uploads
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed
    Disallow: */feed
    Disallow: /*?*
    Disallow: /comment-page-*
    Disallow: /comments
    Disallow: /*/?replytocom=*
    Disallow: /tag
    Disallow: /category/
    Disallow: /author/
    Disallow: /20*/*
    Disallow: /page/*

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/

    User-agent: YandexImages
    Allow: /wp-content/uploads/

    User-agent: Yandex
    Allow: /wp-content/uploads
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed
    Disallow: /*?*
    Disallow: */feed
    Disallow: /comment-page-*
    Disallow: /comments
    Disallow: /*/?replytocom=*
    Disallow: /tag
    Disallow: /category/
    Disallow: /author/
    Disallow: /js/
    Disallow: /20*/*
    Disallow: /page/*
    Host: mojuchastok.ru

    Sitemap: mojuchastok.ru/sitemap.xml
    Sitemap: mojuchastok.ru/sitemap.xml.gz

    А вот что выдает Yandex:

    User-agent: Yandex
    Allow: /wp-content/uploads
    ...
    Host: mojuchastok.ru

    Sitemap: mojuchastok.ru/sitemap.xml
    Sitemap: mojuchastok.ru/sitemap.xml.gz

    Я понимаю что у меня ошибка?Подскажите пожалуйста!

    • Роман Ваховский говорит:

      Андрей, можете не беспокоиться. Яндекс говорит что у вас с роботсом все в порядке.
      P/S/ я убрал http в комментарии с адреса карты сайта, чтобы не было активной ссылки.

      • Андрей говорит:

        Спасибо Роман за помощь!А вот еще один вопрос, почему гугл отображает мой сайт вот так: Описание веб-страницы недоступно из-за ограничений в файле robots.txt ?

        • Роман Ваховский говорит:

          Андрей, что-то мне не сориентироваться. Не понятно, в чем именно (поиск, гугл вебмастер, ...) гугл ругается? Лучше ссылку дайте.
          Ваш сайт оптимизирован для мобильных устройств и прекрасно отображается в сервисе, если вы об этом конечно.

  • Alex говорит:

    "Я вот и не знал, что робот Google директиву Grawl-delay и не понимает ни разу"
    Директива называется Crawl, а не Grawl

  • Сергей говорит:

    Спасибо огромное! Практически со всеми пунктами справился сам, а то предлагают настроить роботс за приличные деньги. А делов-то! Только public_html не обнаружил у себя, залил просто в корень сайта. Яндесу понравилось, Гугл ещё не проверял.

  • Олег говорит:

    Роман добрый вечер.подскажите пожалуйста что это обозначает Not Found

    The requested URL /robots.txt/ was not found on this server.
    Apache/2.4.10 (Unix) Server at aromaberry24.ru Port 80 и как мне это исправить.,вот, мой робот и еще важный вопрос ,когда я в поисковике вбиваю url сайта то меня выбрасывает сразу на админ панель wp не хорошо,как мне это предвратить,уже что только не перепробовал,спасибо

    • Роман Ваховский говорит:

      Здравствуйте, Олег!
      А где это сообщение появляется? Наверное в инструменте Яндекса по проверке роботса?
      В директивt Host: пропишите только домен сайта, без http://

    • Роман Ваховский говорит:

      На счет того, что выбрасывает в админ панель. Не сохраняйте пароль сайта при входе, вставляйте пароль каждый раз при входе. Или заходите на сайт с другого браузера, в кэше которого пароль сайта не сохранен.

  • Олег говорит:

    Добрый вечер Роман,нет яшка наооборот не ругается,гугла не устраевает .

  • Олег говорит:

    Добрый вечер Роман,нет яшка наооборот не ругается,гугла не устраевает .

  • Дмитрий говорит:

    А все таки! Подскажите пожалуйста почему Гугул пишет - "Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt."???

    Мой robots.txt:

    User-agent: *
    Allow: /wp-content/uploads
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Allow: /wp-content/uploads/
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed
    Disallow: */feed
    Disallow: /*?*
    Disallow: /comment-page-*
    Disallow: /comments
    Disallow: /*/?replytocom=*
    Disallow: /tag
    Disallow: /category/
    Disallow: /author/
    Disallow: /20*/*
    Disallow: /page/*

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/

    User-agent: YandexImages
    Allow: /wp-content/uploads/

    User-agent: Yandex
    Allow: /wp-content/uploads
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Allow: /wp-content/uploads/
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed
    Disallow: /*?*
    Disallow: */feed
    Disallow: /comment-page-*
    Disallow: /comments
    Disallow: /*/?replytocom=*
    Disallow: /tag
    Disallow: /category/
    Disallow: /author/
    Disallow: /js/
    Disallow: /20*/*
    Disallow: /page/*
    Host: mojuchastok.ru
    Host: dobrosev.ru

    Sitemap: http:// dobrosev.ru/sitemap_index.xml

    • Роман Ваховский говорит:

      Дмитрий, в роботсе вы запретили индексацию категорий, это правильно. А теперь посмотрите что содержится в карте, там те же category и page, которые запрещены к индексации. Сделайте карту сайта одностраничной с постами и страницами, а не с ссылками на них с sitemap_index.xml.
      Надеюсь, вы поняли мою мысль. Не знаю как объяснить проще. Если что, спрашивайте еще.

  • Елена говорит:

    Роман, здравствуйте!
    Спасибо Вам большое-пребольшое за Ваш труд! Столько полезного! Развиваюсь с Вами))
    Скажите, пожалуйста, если плагин сгенерировал карту по адресу caйт.рф/index.php?xml_sitemap=params=, то значит этот адрес и прописывать в Sitemap: в роботсе?
    И ещё. Вы не в курсе имеет значение как пишешь название сайта в роботсе: русскими буквами или в пуникоде?

    ПС сайт пока в разработке, в поисковиках не зарег-н

    • Роман Ваховский говорит:

      Здравствуйте, Елена!
      1. Если этот адрес рабочий (забейте его в поисковую строку браузера), то да.
      2. Современные поисковики понимают домены на кирилице, а robots только для них нужен, но все же лучше, на всякий случай, в пуникоде прописывать.
      P.S. У Вас неправильно настроены постоянные ссылки, нет чпу. Вот короткая инструкция - https://wordpress-book.ru/nastrojka-wordpress/nastrojka-postoyannyx-ssylok/.

      • Елена говорит:

        Роман, спасибо! Роботса и карту сайта настроила, даже в Яндексе зарядила. Спасибо за помощь!

        Сделала чпу. До этого знала только "станки с чпу"))

        ПС Третий день бьюсь с фидбёрнером, но чёт без толку. Думала, если пост.ссылки настрою всё сразу поправится, ан нет :(( Вашу статью прочитала, всё вроде правильно делаю, но...

        • Роман Ваховский говорит:

          Елена, я конечно не знаток по доменам в рф, но по моему названия статей и категорий даже в зоне рф должны быть на латинице, а не на кириллице как у Вас. Если я прав, то вот плагин, который исправит положение - https://wordpress-book.ru/administrirovanie/plagin-rus-to-lat/

  • Елена говорит:

    Роман, спасибо Вам!!! Установила Cyr to Lat enhanced. Дело пошло. Но фидбёрнер пока не проверила.
    Надеюсь Вас не обидит сумма на Яндекс-кошельке. Это просто спасибо 😉

    • Роман Ваховский говорит:

      О, так это Вы были ). А я весь день ломаю голову кто бы это мог быть :-). По email сразу не догадался.

  • Юрий говорит:

    Роман вот ваш роботс:User-agent: *
    -------------
    Вы пишите что для яши /wp-content/ закрываете полностью, но в вашем роботсе нет запрета на эту папку. Почему так?

    • Роман Ваховский говорит:

      Здравствуйте, Юрий.
      Экспериментировал. Яша ругался что сайт не оптимизирован под мобильные устройства, вот и снял запрет чтобы посмотреть что будет. Сейчас все в порядке, то ли яндекс одумался, то ли снятие запрета помогло. Давно это было, уже и думать забыл. Спасибо что обратили внимание.
      Вернул все назад, как было.
      P.S. Пока ковырялся, нашел еще один вид дублей. Сейчас дополню статью.

  • Юрий говорит:

    Просто заглянул в свою структуру сайта на Вебяндекс и увидел много проиндексированного хлама с этой папки. Поглядел у многих топовых вордсайтов роботсы, негде нет запрета на эту папку, глянул у вас, пишите одно, а стоит другое, вот и задал вам вопрос. Итог: значит закрываем? Без последствий?

Страница 1 из 11

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Поиск по блогу

Все права защищены © 2011-2016. WordPress-book.ru

Копирование материалов разрешено только с размещением открытой обратной ссылки на источник.