О том, как сделать правильный robots.txt для WordPress написано уже достаточно. Однако, чтобы угодить своим читателям, я решил опубликовать свой пост на эту тему. Тем более, что моими коллегами эта тема раскрыта не полностью и тут можно многое добавить.
Что такое robots.txt и зачем он нужен?
robots.txt это текстовый документ, составленный в обыкновенном блокноте, расположенный в корневой директории блога и содержащий в себе инструкции по индексации для поисковых роботов. Проще говоря, что индексировать, а что нет. Наличие этого файла является обязательным условием для качественной внутренней поисковой оптимизации блога.
Как известно, блоги на платформе WordPress содержат в себе множество дублей (копий основного содержимого блога), а также целый набор служебных файлов. Дубли контента снижают его уникальность на домене и поисковые роботы могут наложить на блог серьезные штрафные санкции.
Чтобы повысить уникальность контента, облегчить поисковым ботам работу и тем самым улучшить качество индексации блога, нам и нужен robots.txt.
Правильный robots.txt для WordPress
Рассмотрим на примере моего robots.txt, как его правильно оформить и что в него должно входить.
Скачайте его себе на жесткий диск по этой ссылке и откройте для редактирования. В качестве редактора текстовых файлов настоятельно рекомендую использовать Notepad++.
Строки 6,7: Принято считать, что необходимо закрывать поисковым роботам доступ к служебным файлам в папках «wp-content» и «wp-includes». Но, Гугл по этому поводу нам говорит следующее:
Чтобы обеспечить правильное индексирование и отображение страниц, нужно предоставить роботу Googlebot доступ к JavaScript, CSS и графическим файлам на сайте. Робот Googlebot должен видеть ваш сайт как обычный пользователь. Если в файле robots.txt закрыт доступ к этим ресурсам, то Google не удастся правильно проанализировать и проиндексировать содержание. Это может ухудшить позиции вашего сайта в Поиске.
Таким образом, для Googlebot не рекомендуется запрещать доступ к файлам в этих папках.
Строка 40: С весны 2018 года директива «Host«, указывающая главное зеркало сайта Яндексу, больше не действует. Главное зеркало для нашей поисковой системы теперь определяется только через 301 редирект.
Строки 42,43: Если у Вас еще не создана карта сайта, обязательно сделайте ее. В пути к файлам карты вместо моего адреса wordpress-book.ru пропишите свой. Этот ход сделает индексацию блога поисковиками полной и увеличит ее скорость.
Уже сейчас, можно сказать, что ваш правильный robots.txt для WordPress готов. В таком виде он подойдет для абсолютного большинства блогов и сайтов. Останется только закачать его в корень блога (обычно в папку public_html).
Сделать robots.txt для блога можно и с помощью плагина, например, PC Robots.txt. С его помощью вы сможете создать и редактировать свой robots.txt прямо в админке блога. Но я не советую использовать плагины для создания robots.txt, чтобы исключить лишнюю нагрузку на блог.
Содержание robots.txt любого блога или сайта, если он конечно есть, вы всегда можете посмотреть. Для этого достаточно в адресной строке браузера ввести к нему путь – https://wordpress-book.ru/robots.txt.
Ниже приведена информация по содержанию этого документа и некоторые рекомендации по его оформлению и анализу.
Звездочка «*«, прописанная в тексте robots.txt, означает, что на ее месте допускается последовательность любых символов.
Директива «User-agent» определяет, для каких поисковых роботов даны указания по индексации, прописанные под ней. Таким образом, «User-agent: *» (строка 1) указывает, что инструкции, прописанные под ней, предназначены для всех поисковых систем.
Строка 21: Персонально для Яндекса под «User-agent: Yandex» дублируем список этих команд. Дублирование инструкций для Яндекса дает нам гарантию их выполнения поисковой системой.
Директива «Disallow» запрещает индексацию прописанного для нее каталога или страниц. Директива «Allow» разрешает. Командой «Disallow: /wp-content/» (строка 7) я запретил индексацию служебного каталога «wp-content» на сервере и соответственно всех папок в ней с их содержимым, но командой «Allow: /wp-content/uploads» (строка 8) разрешил индексировать все картинки в папке «upload» каталога «wp-content«. Так как «Allow» является приоритетной директивой для поисковых роботов, то в индекс попадут только изображения папки «upload» каталога «wp-content«.
Для директивы «Disallow» имеет смысл в некоторых случаях дополнительно прописывать следующие запреты:
- — /amp/ — дубли ускоренных мобильных страниц. На всякий случай для Яндекса.
- — /comments — закрыть от индексации комментарии. Зачем закрывать содержащийся в комментариях уникальный контент? Для большей релевантности ключевых слов и неиндексации исходящих ссылок в комментариях. Вряд ли это поможет.
- — /comment-page-* — другое дело древовидные комментарии. Когда комментарии не помещаются на одну страницу (их количество вы проставили в настройках админки), создается дубль страницы типа wordpress-book.ru/…/comment-page-1. Эти дубли конечно же надо закрывать.
- — /xmlrpc.php — служебный файл для удаленных вызовов. У меня его нет и соответственно нет индексации и без запрета.
- — /webstat/ — папка со статистикой сайта. Эта папка есть тоже далеко не у всех.
Нельзя не упомянуть про редко используемую, но очень полезную директиву для Яндекса — «Crawl-delay». Она задает роботу паузу во времени в секундах между скачиванием страниц, прописывается после групп директив «Disallow» и «Allow» и используется в случае повышенной нагрузки на сервер. Прописью «Crawl-delay: 2″ я задал эту паузу в 2 секунды. При нормальной работе сервера качество индексации не пострадает, а при пиковых нагрузках не ухудшится.
Некоторым веб-мастерам может понадобится запретить индексацию файлов определенного типа, например, с расширением pdf. Для этого пропишите — «Disallow: *.pdf$«. Или поместите все файлы, индексацию которых требуется запретить, в предварительно созданную новую папку, например, pdf, и пропишите «Disallow: /pdf/«.
При необходимости запрета индексации всей рубрики, такое бывает ,например, при публикации в нее чужих интересных записей, пропишите — «Disallow: /nazvanie-rubriki/*«, где «nazvanie-rubriki», как вы уже догадались — название рубрики, записи которой поисковикам индексировать не следует.
Тем, кто зарабатывает на своем блоге размещением контекстной рекламы в партнерстве с Google AdSense, будет нелишним прописать следующие две директивы:
Это поможет роботу AdSense избежать ошибок сканирования страниц сайта и подбирать для них более релевантные объявления.
wp-content/uploads/2014/02/YouTube_Downloader_dlya_Ope.jpg»,tid: «OIP.M3a4a31010ee6a500049754479585407do0
Обнаружил у себя только что вот такой вот новый вид дублей в Яндекс Вебмастере. 96 штук уже накопилось и это не предел. А ведь совсем недавно у wordpress-book.ru с дублями был полный порядок. Есть подозрение, что шлак с идентификатором tid:»OIP появляется в индексе поисковика после скачивания картинок роботом Яндекса. Если не лень, посмотрите сколько таких несуществующих страниц разных сайтов уже участвуют в поиске.
Понятно, что с этим чудом надо что-то делать. Достаточно добавить запрещающую директиву — «Disallow: /wp-content/uploads/*.jpg*tid*» в robots.txt. Если на сайте есть картинки png, gif и т.д., добавьте директивы с соответствующими расширениями изображений.
При редактировании robots.txt, учтите, что:
— перед каждой новой директивой «User-agent» должна быть пустая строка, которая обозначает конец инструкций для предыдущего поисковика. И соответственно после «User-agent» и между «Disallow» и «Allow» пустых строк быть не должно;
— запретом индексации страниц в результатах поиска «Disallow: /*?*» вы заодно можете случайно запретить индексацию всего контента, если адреса страниц вашего блога заданы по умолчанию со знаком вопроса в виде — /?p=123. Советую сделать для адресов ЧПУ (человеко понятные урлы :-)). Для этого в настройках постоянных ссылок выберите произвольный шаблон и поставьте плагин Rus-to-Lat.
Анализ robots.txt
Теперь, когда ваш robots.txt отредактирован и залит на сервер, остается только проверить, правильно ли он работает.
Зайдите в свой аккаунт Яндекс Вебмастер и перейдите «Настройки индексирования» → «Анализ robots.txt«. Нажмите на кнопку «Загрузить robots.txt с сайта» и далее на кнопку «Проверить«.
Если Яндексу понравится ваш файл, под кнопкой «Проверить» появится сообщение, примерно как на картинке выше.
Недавно в инструментах для веб-мастеров Гугла появилось очень полезная функция — «Инструмент проверки файла robots.txt«. Можно проверить свой файл на наличие ошибок и предупреждений.
Просто в своем аккаунте перейдите «Сканирование» → «Инструмент проверки файла robots.txt«.
Через некоторое время, когда бот Яндекса скачает ваш robots.txt, проанализируйте в Яндекс Вебмастере адреса страниц вошедших в индекс и исключенных из него в robots.txt. Вошедшие в индекс дубли срочно запрещайте к индексации.
Теперь ваш robots.txt для WordPress правильный и можно поставить еще одну галочку под пунктом выполнения задач по внутренней поисковой оптимизации блога.
robots.txt запретить индексацию всем
При создании тестового блога или при самом его рождении, если вы хотите полностью запретить индексацию сайта всеми поисковыми системами, в robots.txt должно быть прописано всего лишь следующее:
User-agent: *
Disallow: /
Вот в этой статье https://dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress я как раз подробно описал то, что если открыть uploads для всех ботов, то в индексе появляются загруженные PDF и прочие текстовые файлы. А в яндекс вебмастере, в отчете «Исключенные страницы» появляются сообщения об ошибке при индексировании картинок, мол содержимое не поддерживается. Прежде чем писать и давать советы, сообщения GSC и ЯВебмастера пробовали анализировать?
Приветствую! Много страниц жрет вот таких:
/wp-content/uploads/2017/04/%F1%F2%EE%EB-%C1%E5%E9%ED%E0%F0%E4%F1_0005_Layer-1.jpg
Заходишь, 404 страница.
Как это убрать в роботсе подскажите пожалуйста?
Добавьте в роботс еще одной строчкой: Disallow: */%*.jpg и ждите переиндексации.
Роман, добрый вечер! У меня robots.txt такой на сайте. Но при проверке какой либо программой он пишет, что у меня станицы не в индексе запрещены в robots.txt, не могу понять где ошибка помогите
Татьяна, сколько всего страниц на сайте? В индексе у Яндекса на сегодня — 88 страниц, а у Гугла — 102.
Что говорит по этому поводу Яндекс.Вебмастер и Гугл?
Запрещающих индексировать полезный контент директив не обнаружил.
После «Sitemap:» поставьте пробелы.
Роман спасибо Вам большое за совет. Обязательно исправим. В наше время это большая редкость. Чаще всего люди любят выставить «дураком», высмеять (мол не разбираешься и прочее). А Вы совсем наоборот. Быстро и корректно ответили (причем по делу). Для меня этот сайт очень важен. И Я Вам очень благодарен. Если вдруг заметите какие-нибудь недочеты, буду Вам признателен и с радостью их исправим!!!
Роман здравствуйте. Вопрос к Вам как к специалисту:
Только начинаю продвижение своего сайта в интернете. Ему всего пару месяцев в сети интернета. На данный момент он проиндексирован в поисковых системах. Худо-бедно шел не большой трафик посетителей. А две недели назад, на него и вовсе перестали переходить из поисковых машин. Но также пару недель назад был заменен файл Robots.txt. Сейчас он выглядит так:
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /?
Host: 24potolok.by
Sitemap: http : //24potolok.by/sitemap.xml
У меня 2 вопроса:
1. Насколько «годный файл робота
2. И связано исчезновение трафика с заменой этого файла.
В яндексвебмастере показывает, что загруженно 121 страница, а в поиске -42
Очень долго ищу информацию по этому поводу… Конкретики нет… Что делать-непонятно. Буду Вам очень благодарен за любой совет.
Здравствуйте, Алексей!
На первый взгляд с роботсом все в порядке и падение трафика врядли связано с его заменой.
Совершая анализ страниц Вашего сайта, сразу заметил грубейшую ошибку, которая вполне вероятно и послужила причиной. У Вас неправильно настроены ЧПУ сайта. Установите плагин https://wordpress-book.ru/administrirovanie/plagin-rus-to-lat/, пересохраните все страницы, старые удалите из индекса гугла и яндекса в яндекс и гугл вебмастерах, а с новыми URL добавьте. Дождитесь переиндексации. Если что еще замечу, сообщу.
Просто заглянул в свою структуру сайта на Вебяндекс и увидел много проиндексированного хлама с этой папки. Поглядел у многих топовых вордсайтов роботсы, негде нет запрета на эту папку, глянул у вас, пишите одно, а стоит другое, вот и задал вам вопрос. Итог: значит закрываем? Без последствий?
Да, Юрий, я у себя закрыл уже.
Роман вот ваш роботс:User-agent: *
————-
Вы пишите что для яши /wp-content/ закрываете полностью, но в вашем роботсе нет запрета на эту папку. Почему так?
Здравствуйте, Юрий.
Экспериментировал. Яша ругался что сайт не оптимизирован под мобильные устройства, вот и снял запрет чтобы посмотреть что будет. Сейчас все в порядке, то ли яндекс одумался, то ли снятие запрета помогло. Давно это было, уже и думать забыл. Спасибо что обратили внимание.
Вернул все назад, как было.
P.S. Пока ковырялся, нашел еще один вид дублей. Сейчас дополню статью.
Спасибо!
Толковая статья, как раз в тему…
Роман, спасибо Вам!!! Установила Cyr to Lat enhanced. Дело пошло. Но фидбёрнер пока не проверила.
Надеюсь Вас не обидит сумма на Яндекс-кошельке. Это просто спасибо 😉
О, так это Вы были ). А я весь день ломаю голову кто бы это мог быть :-). По email сразу не догадался.
Роман, здравствуйте!
Спасибо Вам большое-пребольшое за Ваш труд! Столько полезного! Развиваюсь с Вами))
Скажите, пожалуйста, если плагин сгенерировал карту по адресу caйт.рф/index.php?xml_sitemap=params=, то значит этот адрес и прописывать в Sitemap: в роботсе?
И ещё. Вы не в курсе имеет значение как пишешь название сайта в роботсе: русскими буквами или в пуникоде?
ПС сайт пока в разработке, в поисковиках не зарег-н
Здравствуйте, Елена!
1. Если этот адрес рабочий (забейте его в поисковую строку браузера), то да.
2. Современные поисковики понимают домены на кирилице, а robots только для них нужен, но все же лучше, на всякий случай, в пуникоде прописывать.
P.S. У Вас неправильно настроены постоянные ссылки, нет чпу. Вот короткая инструкция — http://wordpress-book.ru/nastrojka-wordpress/nastrojka-postoyannyx-ssylok/.
Роман, спасибо! Роботса и карту сайта настроила, даже в Яндексе зарядила. Спасибо за помощь!
Сделала чпу. До этого знала только «станки с чпу»))
ПС Третий день бьюсь с фидбёрнером, но чёт без толку. Думала, если пост.ссылки настрою всё сразу поправится, ан нет :(( Вашу статью прочитала, всё вроде правильно делаю, но…
Елена, я конечно не знаток по доменам в рф, но по моему названия статей и категорий даже в зоне рф должны быть на латинице, а не на кириллице как у Вас. Если я прав, то вот плагин, который исправит положение — http://wordpress-book.ru/administrirovanie/plagin-rus-to-lat/
Понял. Спасибо.
А все таки! Подскажите пожалуйста почему Гугул пишет — «Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.»???
Мой robots.txt:
User-agent: *
Allow: /wp-content/uploads
Disallow: /wp-login.php
Disallow: /wp-register.php
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed
Disallow: */feed
Disallow: /*?*
Disallow: /comment-page-*
Disallow: /comments
Disallow: /*/?replytocom=*
Disallow: /tag
Disallow: /category/
Disallow: /author/
Disallow: /20*/*
Disallow: /page/*
User-agent: Mediapartners-Google
Disallow:
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: Yandex
Allow: /wp-content/uploads
Disallow: /wp-login.php
Disallow: /wp-register.php
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed
Disallow: /*?*
Disallow: */feed
Disallow: /comment-page-*
Disallow: /comments
Disallow: /*/?replytocom=*
Disallow: /tag
Disallow: /category/
Disallow: /author/
Disallow: /js/
Disallow: /20*/*
Disallow: /page/*
Host: mojuchastok.ru
Host: dobrosev.ru
Sitemap: http:// dobrosev.ru/sitemap_index.xml
Дмитрий, в роботсе вы запретили индексацию категорий, это правильно. А теперь посмотрите что содержится в карте, там те же category и page, которые запрещены к индексации. Сделайте карту сайта одностраничной с постами и страницами, а не с ссылками на них с sitemap_index.xml.
Надеюсь, вы поняли мою мысль. Не знаю как объяснить проще. Если что, спрашивайте еще.
Спасибо Роман за отклик и помощь.
Добрый вечер Роман,нет яшка наооборот не ругается,гугла не устраевает .
Добрый вечер Роман,нет яшка наооборот не ругается,гугла не устраевает .
Роман добрый вечер.подскажите пожалуйста что это обозначает Not Found
The requested URL /robots.txt/ was not found on this server.
Apache/2.4.10 (Unix) Server at aromaberry24.ru Port 80 и как мне это исправить.,вот, мой робот и еще важный вопрос ,когда я в поисковике вбиваю url сайта то меня выбрасывает сразу на админ панель wp не хорошо,как мне это предвратить,уже что только не перепробовал,спасибо
Здравствуйте, Олег!
А где это сообщение появляется? Наверное в инструменте Яндекса по проверке роботса?
В директивt Host: пропишите только домен сайта, без http://
На счет того, что выбрасывает в админ панель. Не сохраняйте пароль сайта при входе, вставляйте пароль каждый раз при входе. Или заходите на сайт с другого браузера, в кэше которого пароль сайта не сохранен.
Спасибо огромное! Практически со всеми пунктами справился сам, а то предлагают настроить роботс за приличные деньги. А делов-то! Только public_html не обнаружил у себя, залил просто в корень сайта. Яндесу понравилось, Гугл ещё не проверял.
«Я вот и не знал, что робот Google директиву Grawl-delay и не понимает ни разу»
Директива называется Crawl, а не Grawl
Роман, добрый день!Перепробовал все, но что-то у меня не получается, подскажите пожалуйста!
Вот мой robots-txt :
User-agent: *
Allow: /wp-content/uploads
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed
Disallow: */feed
Disallow: /*?*
Disallow: /comment-page-*
Disallow: /comments
Disallow: /*/?replytocom=*
Disallow: /tag
Disallow: /category/
Disallow: /author/
Disallow: /20*/*
Disallow: /page/*
User-agent: Mediapartners-Google
Disallow:
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: Yandex
Allow: /wp-content/uploads
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed
Disallow: /*?*
Disallow: */feed
Disallow: /comment-page-*
Disallow: /comments
Disallow: /*/?replytocom=*
Disallow: /tag
Disallow: /category/
Disallow: /author/
Disallow: /js/
Disallow: /20*/*
Disallow: /page/*
Host: mojuchastok.ru
Sitemap: mojuchastok.ru/sitemap.xml
Sitemap: mojuchastok.ru/sitemap.xml.gz
А вот что выдает Yandex:
User-agent: Yandex
Allow: /wp-content/uploads
…
Host: mojuchastok.ru
Sitemap: mojuchastok.ru/sitemap.xml
Sitemap: mojuchastok.ru/sitemap.xml.gz
Я понимаю что у меня ошибка?Подскажите пожалуйста!
Андрей, можете не беспокоиться. Яндекс говорит что у вас с роботсом все в порядке.
P/S/ я убрал http в комментарии с адреса карты сайта, чтобы не было активной ссылки.
Спасибо Роман за помощь!А вот еще один вопрос, почему гугл отображает мой сайт вот так: Описание веб-страницы недоступно из-за ограничений в файле robots.txt ?
Андрей, что-то мне не сориентироваться. Не понятно, в чем именно (поиск, гугл вебмастер, …) гугл ругается? Лучше ссылку дайте.
Ваш сайт оптимизирован для мобильных устройств и прекрасно отображается в сервисе, если вы об этом конечно.
Ох уж эти дубли… Жаль вовремя не наткнулся на такой материл о robots.txt и не поубирал все эти Noindex: /*?* и им подобные, в результате теперь приходится начинать практически с нуля. Дубли просто убили посещаемость
У меня вообще нет робота, если я сделаю точно также как вы, можете мне «путь» сказать в какой файл этого робота установить?
Игорь, в корень блога, в папку public_html. В статье написано. Можно по ftp загрузить.
Зря вы так. Как раз по Вашей ссылке в статье 13 строка стоит данная директива!
Да, уж ……… И правда, была там эта бяка (Noindex: /*?* в 13 строке) (((((((. Как она туда попала, понятия не имею. Сам туда ее прописать не мог, иначе она была-бы на скрине и описание было-бы к этой псевдо директивы.. Видимо, происки конкурентов )))))). Все исправил. Извиняюсь за доставленные неудобства.
Проверил файл в бэкапе годовалой давности. Нету там Noindex: /*?*. Пора менять пароли.
Потихоньку ковыряю сайт.
Решил поставить ваш robots.txt. Странно, что при проверки яндексом он ругается следующим образом:
»
13: Noindex: /*?*
Обнаружена неизвестная директива
»
Подскажите — с чего вдруг?
И правильно ругается. Не такой директивы Noindex: /*?*. Уберите ее с robots.txt. В моем роботсе, кстати, нет такой «директивы».
Добрый день! Не могли бы вы мне помочь. Скачал ваш файл, отредактировал его под свой сайт и загрузил. После этого залил на сайт статью krimnovostroi.ru/2015/08/20/zhk-victory-hills и попытался ее добавить в аддурилку яндекса. Пишет «Указанный URL запрещен к индексации в файле robots.txt на сайте krimnovostroi.ru». Может быть, я там что-то не так отредактировал? Буду очень благодарен за помощь, если подскажите, как устранить неполадку. И, если возможно, гляньте, пожалуйста весь файл. Мало ли еще где-то напорол.
Сейчас в роботсе никаких ограничений на индексацию статей с такими хитрыми URL нет. В адурилку последняя статья успешно добавлена. У Вас, наверное, была прописана директива Disallow: /20*/*, как у меня и Вы ее уже убрали. Верно?
Взял другой роботс. Кстати, у меня тоже при проверке вашего файла в Вебмастере Яндекса «13: Noindex: /*?*
Обнаружена неизвестная директива» выскакивало.
По этому недоразумению в 13 строке все прояснилось. Отписался тремя комментариями ниже.
Доброго времени суток, Роман!
Не пойму в чем дело? В robots стоит хост с www, а яндекс пишет — Последняя проверка показала, что указанный вами домен http://www.sait.ru не может быть выбран в качестве главного зеркала. Поставил Ваш robots.txt и добавил еще — Disallow: /*add-to-cart=* так майл выдает что — Страницы сайта помечены тэгом <meta name="robots" content="noindex"/ хотя закрывал только страницу контакты. В чем причина не пойму.
Заранее спасибо
Здравствуйте, Алексей!
1. Сами разобрались с индексацией? В данный момент разрешена индексация всех страниц —
2. Яндекс глючит. Это в вебмастере так определили. Напишите Платонам в службу поддержки Яндекса.
Проблема решена обновлением плагина.
Доброго времени суток, Роман!
Хочу Вас поблагодарить за предоставленную статью!
У меня вот только на сайте по адресу: сайт/sitemap.xml.gz
Выдает следующую ошибку:
В firefox: «Ошибка синтаксического анализа XML: некорректно».(плагин Google XML Sitemaps)
В эксплоере пишет «ошибка 404 — не найдено»
Подскажите пожалуйста, где искать проблему?
Трудно сказать со всей определенностью. Надо ковыряться по месту. Больше ничего не пишет?
Посмотрите, правильно ли настроен плагин http://wordpress-book.ru/administrirovanie/google-xml-sitemaps/
Спасибо Роман, ответьте только на вопрос, зачем прописывать роботу два пути к сайтмапу-что это за .gz?
Заранее спасибо
Это сжатая gzip’ом карта в xml формате. Роботы будут быстрее ее скачивать для обработки.
Вставьте этот (свой) адрес (http://wordpress-book.ru/sitemap.xml.gz) в адресную строку браузера, если откроется карта сайта, то все в порядке.
Роман в в инструментах для вебмастеров Гугла у меня есть ошибка прилагаю скриншот объясните пожалуйста что за ошибка, как её исправить?
Забыли скриншот приложить ). В статье из robots.txt я убрал две директивы для робота гугла. Скачайте новый robots.txt.
Здравствуйте, скачал карту в корень сайта после этого а консоли показывает такое надпись.
Конфликт с неизвестным файлом / и путь к карту сайта.Как поступить в этом случае.Спасибо
На Вашем сайте и карта сайта (ее, карту, никуда закачивать не надо), и robots.txt функционируют нормально. Какой файл вы закачали в корень сайта?
ну и жесть советы — еще бы туда данные к паролям в Disallow добавили. Абсолютно куча ненужных директив. Закрывают то, что может проиндексироваться по ссылкам с сайта, а вы светите конфиденциальную инфу, которая и не проиндексируется.
Во-вторых, скачал файл по ссылке с готовым роботсом — он у вас кривой: всё в одну строчку написано.
??????? Какие директивы по вашему лишние?
Скачал роботс, открыл, все в порядке. И поисковики его съедают.
Добрый день!
Мой роботс выглядить так:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Host: lsclub.ru
Sitemap: lsclub.ru/sitemap.xml.gz
Sitemap: lsclub.ru/sitemap.xml
Все бы ничего, но есть куча дублей. Связываю это с тем, что установлен плагин woocommerce вот например на главную вот такие дубли получились
lsclub.ru/?add-to-cart=312
lsclub.ru/?add-to-cart=206
lsclub.ru/?add-to-cart=356
lsclub.ru/?add-to-cart=204
Вопрос такой: как запретить к индексации эти дубли?
Заранее спасибо, если найдете возможность ответить мне!
Очень просто, добавьте в файл Disallow: /?*, и эти дубли уйдут.
Спасибо искал как закрыть дубли в архивах, и у Вас нашёл подсказку,всё работает.
Роман, добрый день! Спасибо за статью! Последовал Вашему совету, сделал такой же robots.txt на моем проекте http://kak-eto-sdelano.ru. Но после индексации яндекс.вэбмастер показал, что из-за роботса не смог проиндексировать вполне себе правильные посты. У меня в настройках стоят ЧПУ, а яндекс заблокировал урлы вида /?p=102 В итоге, из 116 загруженных 84 под запретом, из которых 23 — это короткие урлы, а остальное страницы тэгов. Вопрос: Есть ли смысл запрещать через роботс урлы вида /?p=*, если они все равно ведут на ЧПУ? И когда яндекс заново считает роботс, чтобы проиндексировать убранные страницы? Спасибо!
Дублей (соплей, как их стало модно называть) вида /?p=* очень много на любом WordPress проекте. А дубли закрывать нужно в любом случае (страницы тэгов те же дубли). Так что смысл есть, и очень здравый смысл.
Робот Яндекса читает robots.txt при каждом заходе на сайт. Но после захода все равно надо ждать переиндексации, примерно неделю.
Сейчас Ваш robots.txt не похож на мой. Не знаю, что там было прописано, что Яндекс выкинул множество страниц из Яндекса. Проверил первую попавшуюся страницу, которая не в Яндексе (о сушке мяса). Так вот, она не уникальна, текст вместе с картинками скопирован подчистую с liveinternet. Это ооочень плохо. Может быть причина выпадения из индекса в этом?
Привет всем!!! Давно ищу правильный robots.txt никак не могу найти. Посмотрим у Романа. Спасибо за робот.
Роман, добрый день. Подскажите, пожалуйста — у вашего робота перед
Host:
нет пустой строки, а есть после.
У меня с точностью до наоборот, пустая строка перед Host:
а потом без пропусков две строки sitemap
Можно оставить так? Или?..
Нет, сделайте как у меня. Host предназначен только для Яндекса, поэтому и пустой строки не должно быть после всех прописанных для него директив. Пустая строка означает конец правил. Перед адресами к картам сайта должна быть пустая строка.
Здравствуйте Роман.
Вот нашел такой робот
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-comments
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: */feed
Disallow: /cgi-bin
Disallow: *?s=
Host: site.ru
тут еще такая же схема для всех роботов.
И автор этого робота пишет, что это самый правильный робот.
Так же, этот же автор пишет, что вот такой робот, тоже работает как часики, без сбоев.
User-agent: *
Disallow: /wp-
Disallow: *?s=
Disallow: *?attachment_id=
Disallow: */feed
Disallow: /xmlrpc.php
Disallow: */page/ # все виды пагинации
Allow: */uploads
Sitemap: http: //site.ru/sitemap.xml
Sitemap: http: //site.ru/sitemap2.xml
Host: www. site.ru
Эти два робота очень отличаются от Вашего.
Очень хочется поставить себе нормального робота, а то вообще ни какого нет )
В первом варианте с моим robots.txt, приведенным в примере, принципиальных отличий нет.
Второй закрывает не все дубли стандартного WordPress блога да и вложения (attachment) есть далеко не у всех.
Главное зеркало (Host) следует прописывать строго с www или без www для Яндекса и сразу после всех основных директив. Адреса карт для Sitemap: через пустую строку после всех директив, чтобы другие поисковики тоже их учитывали.
Тот пример, который приведен у меня, подойдет для любого WordPress блога. Смело им пользуйтесь. Я его составлял по рекомендациям Яндекса и ведущим блогерам рунета. Он приведен как отправная точка по составлению своего robots.txt. Со временем он конечно может слегка изменится (добавятся еще дубли или вы захотите что-то запретить к индексации), как изменился мой настоящий wordpress-book.ru/robots.txt.
Помогите, пожалуйста! Сайту 2 недели, GOOGLE проиндексировал 7 стр, yandex-только главную, но все может быть, жду. Вдруг обнаруживаю, что другие роботы не могут посещеть мои страницы, в частности, Megaindex говорит, что у меня запрет на посещение роботов. Так же примерно ведут себя и другие роботы, кроме yandex, google. Но ни в robots.txt, ни в др. настройках запрета нет. Сайт на WordPress, может, где-то в его настройках или в плагинах… Уже голову сломала, что делать…Все перерыла. Может, кто-то подскажет, сталкивался?
Роман, подскажите, пожалуйста. Robots.txt переписала несколько дней назад. У меня проблема в том, что поиск в Гугл выдает мой сайт на высоких строчках, но всегда ведет на главную. Например, по запросу «Кукла Клеопатра от Paola Reina» он выкинет пользователя на kuklatessa.ru вместо kuklatessa.ru/cleopatra-paola-reina.html
Что ещё надо поправить? Или ждать, сайту 3 недели.
Роман, а как правильно закрыть архивы если я по незнанию, когда начинала делать сайт установила постоянные ссылки таким образом: istashenko.com/2014/04/sample-post/ Теперь понимаю, что это не лучший вариант, но исправлять поздно. И вот, если я закрою Disallow: /20* то получится, что я закрою все посты?
Пропишите так:
Disallow: /20*/*/
Allow: /20*/*/*
или, что еще проще, пропишите так: Disallow: /20*/*/$
Спасибо. А я вот нарыла такой вариант:
User-agent: ia_archiver
Disallow: /
Это годится?
Точно не узнавал что это, но кроме мнения что этим вы запретите скачивать страницы в веб-архив есть еще и то, что это робот поисковой системы Alexa (в этом случае вы запретите индексацию всего сайта Alexой).
Лучше прописать старые, проверенные директивы.
Что нужно закрыть, если установлен плагин woocommerce? Я собрала все примеры, какие нашла в интернете. Но не уверена, что сделала это правильно.
C этим плагином дела не имел и ничего определенного сказать не могу. Посмотрите в своем аккаунте Яндекс.Вебмастера запрещенные страницы к индексации роботом яндекса, но не в robots.txt. Дубли из этого списка и будут теми дублями, которые Вы пропустили.
отписал Вам на почту, посмотрите я скинул.
Подскажите, я когда в поиск гугла вписываю свой сайт например мойсай.ru, то поиск выдаёт результаты: находит сайт и страницы но в описании пишет «Все права защищены. Запрещено использование материалов сайта без согласия его авторов и обратной ссылки»
т.е. берёт инфу из footer.php, я в коде ставил тег noindex, но ничего не помогает, может попробовать поставить запись в robot.txt типа:
Disallow: footer.php?
Спасибо.
Здравствуйте, Николай!
Если вы запретили к индексации каталоги служебных файлов, то Disallow: footer.php прописывать не нужно.
Поисковики в своей выдаче выдают самые релевантные запросу страницы. Попробуйте в поиск ввести «wordpress-book.ru» и увидите как это будет с моим блогом. Поисковик найдет все наиболее релевантные страницы, где упоминается этот поисковый запрос.
Упомяните адрес своего сайта на нескольких страницах, как это сделал я, и тогда в выдаче будут эти страницы.
У меня к вам вопрос в тему!
Если после вашего домена, через слэш ввести robot.txt , то получится 404 — то есть страница не найдена! Как вы это сделали?
Привет Андрей!
Пропущена буква «S» в конце. Надо вводить не robot.txt а robots.txt
Спасибо вам большое!
А как закрыть конкретную страничку на wordpress? Есть страничка на вордпресс домен.com/kak-zaregistrirovatsya-v-platezhnoj-sisteme-payza/ как закрыть правильно именно /kak-zaregistrirovatsya-v-platezhnoj-sisteme-payza/ ?
Пропишите в robots.txt :
Disallow: /kak-zaregistrirovatsya-v-platezhnoj-sisteme-payza/
Ссылку на эту страницу в Вашем комментарии убрал. Иначе роботы по ней страницу проиндексируют.
Если на сайте вообще отсутствует файл robots.txt, то поисковые системы не индексируют, по крайней мере, не показывают в панели вебмастера проиндексированные технические страницы сайта.
Если в файле robots.txt нет директив закрытия подобных страниц, то в вебмастере нет перечня проиндексированных технических страниц.
Вопрос: для чего тогда в файле robots.txt вы применили директивы закрытия от индексации технических страниц (страницы входа в свою админку, страницы ввода логина и пароля и т.п.)?
Без robots.txt поисковые роботы эти страницы в любом случае индексируют (даже если их нет в вебмастере) и сами исключают их из поисковой выдачи. В robots.txt я прописал эти директивы для облегчения жизни роботу. Индексация пройдет более качественно если роботу не придется ковыряться и в дублях и в технических страницах сайта в том числе. Если ошибаюсь, поправьте.
Индексация страниц сайта по определению не может быть не качественной — это работа поискового алгоритма. Чем тут можно помочь или навредить поисковому роботу не совсем понятно.
Не могу найти первоисточник — откуда идёт рекомендация по закрытию в роботс технических страниц сайта (в инструкциях по директивам об этом ни слова).
О дублях доступа страниц тоже нет понятной инфы: поисковики очень хорошо знают как движки генерируют дубли страниц, да и админ не все свои дубли закрывает от индексации (это и в вашем варианте роботс тоже нет) и поэтому не понятно почему поисковики ругают за дубли. Дубли одной страницы одного сайта всё — равно имеют разные URL.
Или я не корректно ставлю вопросы, как вы считаете?
Под некачественной индексацией я имел в виду то, что робот иногда не видит более ранние статьи. Индексация их происходит намного позже.
Рекомендации закрывать технические страницы и дубли я дал после тщательного анализа robots.txt многих уважаемых блогов на WP. Посмотрите их сами. А то что Яндекс вебмастер ничего об этом не говорит еще ничего не значит. Вот если бы он прямо сказал, что дубли и технические страницы блогов WP закрывать в роботсе не надо…
Вы не согласны?
З.Ы. Директива «Host:», прописанная в robots.txt вашего блога, должна быть в конце списка директив под директивой «User-agent: Yandex», и предназначена только для Яндекса. В таком виде как сейчас Яндекс ее проигнорирует.
Здравствуйте!
У меня есть простенький 4-х страничный сайт.
Мне кажется что мне нужно чтобы индексировались только 2 страницы: мойсайт/home и мойсайт/sauna. Другие страницы со схемой проезда и обратной связью для поиска неинетерсы.
Что мне надо прописать в файле для этого? Я думаю что совсем мало строчек будет?
Сайт можно сказать без движка, собран в конструкторе на REG.RU.
В последствии планирую переделать уже на движке WP.
Да, и ещё. Назваоние сайта у меня в кирилице в домене .РФ. Надо ли мне его переводить в паникод чтобы записать в файле robots?
Не советую исключать из поиска эти страницы. Поисковики должны видеть, что на вашем сайте сделано все для удобства клиентов. А интересны они поисковикам или нет, это другой вопрос. Кроме того они же не дубли.
Исключить страницу из индекса можно вставкой в роботс — Disallow: /страница/
Что касается РФ, думаю что боты кирилицу не понимают. А что делать с этим дальше ничего посоветовать не могу. Не сталкивался.
Роман,спасибо за ответ! Сама пытаюсь понять принципы. Решила воспользоваться Вашими советами и подкорректировать свой robots. Видела не один раз блоги со 100 % индексом, думала, что это от robots.txt зависит. Хотела добиться того же, но после Вашего ответа понимаю, что пустое это все. Но со временем нужно разбираться. Спасибо Вам!
Роман, добрый день! Я как раз последние дни интересовалась файлами robots.txt на блогах и мнения у всех разные. Вот Вы мне скажите, если Вы закрыли все дубли на своем сайте, тогда почему у Вас индекс Google всего 6 %? Я так понимаю, что остальные 94 % — это дубли и не проиндексированные страницы? У меня поэтому и возникает вопрос. Уверена, что у Вас уникальные статьи (как и у меня), значит дело не в robots?
Здравствуйте Татьяна!
Только что приехал с дачи и спешу ответить.
На данный момент Гуглом проиндексировано 1740 страниц.
6% от этого числа 104 страницы, которые попали в основной индекс или в выдачу. Опубликовано всего 106 записей и 6 страниц.
94% это дубли и почему то не попавшие в индекс несколько страниц.
Почему эти несколько страниц в выдачу не попали пока не знаю. Буду разбираться. Потом, как нибудь :-).
Конечно, дело не в файле robots.txt
6% — не под фильтрами Google (это страницы в основном индексе)
94% — это дополнительный индекс, песочница (сюда попадает всё, что проиндексировано на сайте, в том числе ленты коротких записей, комменты, ответы на комменты и т.п.), это не дубли 😉
Уникальную (оригинальную) статью нужно обязательно связать со своим авторством в борьбе с плагиатом и эту возможность Google даёт.
Роман,мне не понятен следующий момент:/wp-content/.В этой же папке находятся все статьи и мы эту папку вторым слэшем закрываем?
Что такое wp?
Если у меня нет ленты RSS надо убрать тогда feed из robots.txt? У меня нет ленты,а feed стоит.
Почему в одних случаях второй слэш есть,а в других нет?В каких случаях надо ставить второй слэш?
Дубли контента авторов блога — о каких авторах идет речь?Два человека имеют один блог и пишут в нем статьи и тогда надо применять Disallow:/author? Я правильно поняла?
Татьяна, срочно убери пустые строчки в своем роботсе после каждого User-agent: *. С пустыми строками робот думает что правил для него нет.
Попробую ответить.
1. Таня, ты ставишь меня в тупик. Где именно в wp-content хранятся статьи и в каком виде? Кроме плагинов, файлов тем, картинок и другого мусора я там ничего не нашел.
2. wp — сокращенно WordPress :-). В нашем случае это начало имени папки.
3. Лента есть у любого блога WP. Ты наверное фидбернер имела в виду. Так что feed оставляй.
4. Если на блоге даже один автор, то контент дублируется на странице сайт.ru/author/admin/. Нажми на Автор:Роман Ваховский под заголовком к любой моей статье и увидишь. У тебя имя автора не отображается под заголовками (особенность темы наверное), поэтому тебе это не надо.
5. Я ставил второй слэш, если закрывал папку со всем содержимым в ней и продолжения в адресе не подразумевалось. Потом более подробно распишу этот спорный вопрос.
А что значит : «…срочно убери пробелы в своем роботсе после каждого User-agent: *»
Опечаточка вышла, я имел в виду пустые строки. У Татьяны раньше ниже всех User-agent: были пустые строчки. Исправил, чтобы не вводить в заблуждение.