Файл robots.txt для wordpress


О файле robots.txt

Файл robots.txt это текстовой файл, в котором прописываются правила для поисковых машин для сканирования, а значит индексации папок и файлов сайта. Находится файл robots.txt должен в корневом каталоге сайта. Файл robots.txt наряду с картой сайта Sitemap  это основные документы SEO оптимизации блогов сделанных на CMS WordPress.

  • Важно! Недопустимо пустые переводы строк между директивами ‘User-agent’ и ‘Disallow’ (‘Allow’), а также между директивами ‘Disallow’ и ‘Allow’.
  • Важно! URL файла robots.txt чувствителен к регистру.

На базовой версии файл robots.txt для wordpress выглядит следующим образом:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

  • User-agent это обращение к поисковикам. [*] звезда, означает, что следующие директивы группы обращены ко всем поисковикам;
  • Директива Disallow запрещает поисковикам индексировать только то, что находится в папках /wp-admin/ и /wp-includes/.

Файл robots.txt составляется из строк, каждая из которых является отдельной директивой. Директива, а проще говоря, правило, пишется для поисковиков. Весь файл robots.txt  пишется по специальному  несложному синтаксису.

Синтаксис файла robots.txt

Символ ‘#’ назначен для комментариев. Все, что находится после решетки и до первого перевода строки не исполняется и не учитывается поисковиками.

Первой рабочей директивой  файла robots.txt (начало группы) нужно прописывать директиву [User-agent]. Она показывает  к кому поисковику относится следующие за ним директивы;

Недопустимо пустые переводы строк между директивами [User-agent] и [Disallow] ([Allow]);

Директива [User-agent] со звездой , то есть [User-agent: *], означает, что правила robots.txt  относятся ко всем поисковикам;

Для главных поисковых роботов Яндекс и Google директивы “User-agent” файла robots.txt должны выгладить так:

User-agent: Yandex
User-agent: Googlebot

Правила для поисковиков прописываются директивами «Disallow» – запрет или «Allow»-разрешение;

User-agent: *
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц 
# начинающихся с '/cgi-bin'

Любой файл robots.txt должен содержать директиву «Disallow»;

Пустая  «Disallow»  разрешает индексацию всего сайта, «Disallow» закрытая слеш (/) полностью закрывает сайт от индексации.

Disallow: / # блокирует доступ ко всему сайту

Составим Файл robots.txt для wordpresss

Что же стоит спрятать от поисковиков?

Разумно спрятать все папки с личной информацией, паролями, логинами и т.п. Это три папки. Директивы выглядят так:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallw: /wp-includes/

Все плагины блога, темы, кэш не являются контентной информацией блога, поэтому их тоже спрячем.

Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/

В SEO продвижении, особенно в структуре WP, важное значение имеет отсутствие повторов (дублирование) контента в зоне одного домена. Дублирование возникает при редактировании материалов, при комментировании, при работе на блоге нескольких авторов, при постоянном упоминании одного автора в представлении к статье (имя автора). Много дублирования в тегах блога. Cтоит спрятать эти папки от поисковиков.

Если на блоге вы используете SEF ссылки (человекопонятные адреса статей), без знаков вопроса в URL, то можно запретить поисковикам индексировать эти страницы.

Disallow: /*?*
Disallow: /*?

Таким же образом вы можете запретить индексацию любой папки или файла блога. Чтобы запретить индексацию файлов, например .pdf нужно прописать директиву:

Disallow: /*.pdf

Спецсимвол звезда ‘*’  означает любую, включая пустую,  последовательность символов.

В файле robots.txt есть одна интересная директива специальная для Яндекс. Это директива Host. С помощью неё вы можете (должны) сообщить Яндекс основной домен (главное зеркало) своего блога. Директив Host в файле должна быть одна. Если внесены несколько директив Host читается первая по списку. Правда, для этого нужно сделать отдельную секцию для “User-agent” для Яндекс.

User-agent: Yandex

В файл robots.txt обязательно нужно вставить  информацию о своей карте Sitemap

Карту-сайта  нужно генерировать  при помощи любого веб-инструмента Sitemap. Он генерирует четыре формата карты-сайта. Один из них, файл формата  [.xml], сначала нужно загрузить в корень сайта, а потом включить в  файл robots.txt. Если карт-сайта несколько загрузите все. Рекомендую два генератора Sitemap:

  • https://pro-sitemaps.com/ 
  • http://www.mysitemapgenerator.com/

Если вы видите большую загрузку своего сервера, то можно воспользоваться директивой “Crawl-delay”. Она задаст время в миллисекундах, между загрузками двух страниц. Добавлять директиву “Crawl-delay” нужно сразу после “User-agent”.

User-agent: *
Crawl-delay: 3.5 # задает таймаут в 3.5 секунды

Вообще менять файл  robots.txt на сайте WordPress это работа творческая. Каждый файл robots.txt  должен быть индивидуальным и отвечать вашим личным требованиям к поисковикам.

Файл robots.txt для wordpress: пример

Приведу, как мне кажется, разумный Файл robots.txt для wordpress

User-agent: *
 Disallow: /cgi-bin
 Disallow: /wp-admin/
 Disallow: /wp-includes/
 Disallow: /wp-content/plugins/
 Disallow: /wp-content/cache/
 Disallow: /wp-content/themes/
 Disallow: /wp-trackback
 Disallow: /wp-feed
 Disallow: /wp-comments
<del> Disallow: /category/
 Disallow: /author/
 Disallow: /page/</del>
 Disallow: */trackback
 Disallow: */comments
 Disallow: /*.php
 Sitemap: http://ваш_сайт.ru/sitemap.xml.gz
 Sitemap: http://ваш_сайт.ru/sitemap.xml

User-agent: Yandex
 Disallow: /cgi-bin  #блокирует доступ к страницам начинающихся с '/cgi-bin'
 Disallow: /wp-admin/ #блокирует доступ к содержимому папки wp-admin 
 Disallow: /wp-includes/
 Disallow: /wp-content/plugins/ #блокирует содержимое папки plugins в каталоге wp-content
 Disallow: /wp-content/cache/
 Disallow: /wp-content/themes/
 Disallow: /wp-trackback #блокирует доступ к страницам нащинающихся с wp-trackback
 Disallow: /wp-feed
 Disallow: /wp-comments
 <del>Disallow: /category/
 Disallow: /author/
 Disallow: /page/</del>
 Disallow: */trackback
 Disallow: */comments
 Disallow: /*.php
 Host: ваш_сайт.ru
 Sitemap: http://ваш_сайт/sitemap.xml

Пояснения к файлу

Этот файл robots.txt для wordpress содержит выделенную инструкцию для поисковика Яндекс. В эту часть файла добавлена специальная директива Host, которая читается только ботами Яндекс и определяет основное зеркало сайта. Двух директив Host  в файле robots.txt быть не должно.

В этом примере файла robots.txt закрыто для поисковиков все содержание папок:  wp-admin, wp-includes, plugins, cashe, themes, autor, category. Если не хотите закрывать от поисковиков архивы статей, авторов и категории уберите строки (директивы), которые я зачеркнул. Закрыта индексация страниц wordpress (“на любителя”). Добавлены карты сайта.

Приведенный Файл robots.txt является частным и сделан для индивидуальных требований.

Для альтернативы, приведу другой рекомендованный Файл robots.txt. Рекомендация автора плагина WordPress SEO Plugins (yoast.com).

User-Agent: *
Disallow: /wp-content/plugins/

Повторюсь и выделю, нет уникальных файлов robots.txt. Продумайте, что нужно именно вам закрыть от поисковиков или оставьте файл robots.txt для wordpress по умолчанию. Частые манипуляции с файлом robots.txt, будут лихорадить вашу выдачу в индексе поисковиков.

Полезные ссылки

На этом про файл robots.txt для wordpress все!

©www.wordpress-abc.ru

Другие статьи раздела: CMS WordPress


Отправить ответ

Оставьте первый комментарий!

Уведомлять
500
wpDiscuz