файл robots.txt для wordpress

О файле Robots.txt

Файл robots.txt это текстовой файл, в котором прописываются правила для поисковых машин для сканирования, а значит индексации папок и файлов сайта. Находится файл robots.txt должен в корневом каталоге сайта. Файл robots.txt наряду с картой сайта Sitemap  это основные документы SEO оптимизации блогов сделанных на CMS WordPress.

Важно! Недопустимо пустые переводы строк между директивами ‘User-agent’ и ‘Disallow’ (‘Allow’), а также между директивами ‘Disallow’ и ‘Allow’.

На базовой версии файл robots.txt для wordpress выглядит следующим образом:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Это значит, что файл robots.txt обращается ко всем поисковикам (строка User-agent пустая), и запрещает им (Disallow) индексировать только то, что находится в папках /wp-admin/ и /wp-includes/.

Файл robots.txt составляется из строк, каждая из которых является отдельной директивой. Директива, а проще говоря, правило, пишется для поисковиков. Весь файл robots.txt  пишется по специальному  несложному синтаксису.

Синтаксис файла robots.txt

Символ ‘#’ назначен для комментариев. Все, что находится после решетки и до первого перевода строки не исполняется и не учитывается поисковиками.

Первой рабочей директивой  файла robots.txt нужно прописывать директиву «User-agent». Она показывает  к кому поисковику относится следующие за ним директивы;

Недопустимо пустые переводы строк между директивами «User-agent» и «Disallow» («Allow»);

Директива «User-agent» со звездой , «User-agent: *», означает, что правила robots.txt  относятся ко всем поисковикам;

Для Яндекс и Google директория «User-agent» файла robots.txt должна выгладить так:

User-agent: Yandex
User-agent: Mediapartners-Google

Правила для поисковиков прописываются директивами «Disallow» -запрет или «Allow»-разрешение;

User-agent: *
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц 
# начинающихся с '/cgi-bin'

Любой файл robots.txt должен содержать директиву «Disallow»;

Пустая  «Disallow»  разрешает индексацию всего сайта, «Disallow» закрытая слеш (/) полностью закрывает сайт от индексации.

Disallow: / # блокирует доступ ко всему сайту

Составим Файл robots.txt для wordpresss

Что же стоит спрятать от поисковиков?

Читайте так же:  Плагин Google AdSense WordPress уникальный инструмент для размещения рекламы Google

Разумно спрятать все папки с личной информацией, паролями, логинами и т.п. Это три папки. Директивы выглядят так:

User-agent: *Disallow: /cgi-bin/
 Disallow: /wp-admin/
 Disallw: /wp-includes/

Все плагины блога, темы, кэш не являются контентной информацией блога, поэтому их тоже спрячем.

Disallow: /wp-content/plugins/
 Disallow: /wp-content/cache/
 Disallow: /wp-content/themes/

В SEO продвижении, особенно в структуре WP, важное значение имеет отсутствие повторов (дублирование) контента в зоне одного домена. Дублирование возникает при редактировании материалов, при комментировании, при работе на блоге нескольких авторов, при постоянном упоминании одного автора в представлении к статье (имя автора). Много дублирования в тегах блога. Cтоит спрятать эти папки от поисковиков.

Если на блоге вы используете SEF ссылки (человекопонятные адреса статей), без знаков вопроса в URL, то можно запретить поисковикам индексировать эти страницы.

Disallow: /*?*
Disallow: /*?

Таким же образом вы можете запретить индексацию любой папки или файла блога. Чтобы запретить индексацию файлов, например .pdf нужно прописать директиву:

Disallow: /*.pdf

Спецсимвол звезда ‘*’  означает любую, включая пустую,  последовательность символов.

В файле robots.txt есть одна интересная директива специальная для Яндекс. Это директива Host. Благодаря этой директивы вы можете сообщить Яндекс основной домен  своего блога. Директив Host на файле должна быть одна. Если внесены несколько директив Host читается первая по списку. Правда, для этого нужно сделать отдельную секцию для “User-agent” для Яндекс.

User-agent: Yandex

В файл robots.txt обязательно нужно вставить  информацию о своей карте Sitemap.

Карту-сайта  нужно генерировать  при помощи любого веб-инструмента Sitemap. Он генерирует четыре формата карты-сайта. Один из них, файл формата  [.xml], сначала нужно загрузить в корень сайта, а потом включить в  файл robots.txt. Если карт-сайта несколько загрузите все. Рекомендую два генератора Sitemap:

  • https://pro-sitemaps.com/ 
  • http://www.mysitemapgenerator.com/

При большой загруженности сервера можно воспользоваться директивой «Crawl-delay». Она задаст время в миллисекундах, между загрузками двух страниц. Добавлять директиву «Crawl-delay» нужно сразу после “User-agent” .

Читайте так же:  Как сделать кнопку плавного прокручивания «Наверх»

Вообще менять файл  robots.txt на сайте WordPress это работа творческая. Каждый файл robots.txt  должен быть индивидуальным и отвечать вашим личным требованиям к поисковикам.

Приведу, как мне кажется, разумный Файл robots.txt для wordpress

User-agent: *
 Disallow: /cgi-bin
 Disallow: /wp-admin/
 Disallow: /wp-includes/
 Disallow: /wp-content/plugins/
 Disallow: /wp-content/cache/
 Disallow: /wp-content/themes/
 Disallow: /wp-trackback
 Disallow: /wp-feed
 Disallow: /wp-comments
<del> Disallow: /category/
 Disallow: /author/
 Disallow: /page/</del>
 Disallow: */trackback
 Disallow: */comments
 Disallow: /*.php
 Sitemap: http://ваш_сайт.ru/sitemap.xml.gz
 Sitemap: http://ваш_сайт.ru/sitemap.xml

User-agent: Yandex
 Disallow: /cgi-bin  #блокирует доступ к страницам начинающихся с '/cgi-bin'
 Disallow: /wp-admin/ #блокирует доступ к содержимому папки wp-admin 
 Disallow: /wp-includes/
 Disallow: /wp-content/plugins/ #блокирует содержимое папки plugins в каталоге wp-content
 Disallow: /wp-content/cache/
 Disallow: /wp-content/themes/
 Disallow: /wp-trackback #блокирует доступ к страницам нащинающихся с wp-trackback
 Disallow: /wp-feed
 Disallow: /wp-comments
 <del>Disallow: /category/
 Disallow: /author/
 Disallow: /page/</del>
 Disallow: */trackback
 Disallow: */comments
 Disallow: /*.php
 Host: ваш_сайт.ru
 Sitemap: http://ваш_сайт/sitemap.xml

Пояснения к файлу

Этот файл robots.txt для wordpress содержит выделенную инструкцию для поисковика Яндекс. В эту часть файла добавлена специальная директива Host, которая читается только ботами Яндекс и определяет основное зеркало сайта. Двух директив Host  в файле robots.txt быть не должно.

В этом примере файла robots.txt закрыто для поисковиков все содержание папок:  wp-admin, wp-includes, plugins, cashe, themes, autor, category. Если не хотите закрывать от поисковиков архивы статей, авторов и категории уберите строки (директивы), которые я зачеркнул. Закрыта индексация страниц wordpress («на любителя»). Добавлены карты сайта.

Приведенный Файл robots.txt является частным и сделан для индивидуальных требований.

Для альтернативы, приведу другой рекомендованный Файл robots.txt. Рекомендация автора плагина WordPress SEO Plugins (yoast.com).

User-Agent: *
Disallow: /wp-content/plugins/

Повторюсь и выделю, нет уникальных файлов robots.txt. Продумайте, что нужно именно вам закрыть от поисковиков или оставьте файл robots.txt для wordpress по умолчанию. Частые манипуляции с файлом robots.txt, будут лихорадить вашу выдачу в индексе поисковиков.

Читайте так же:  ID WordPress страницы, поста, раздела, пользователя

На этом про файл robots.txt для wordpress все!

Игорь Серов, специально для сайта «Как сделать сайт WordPress».

Другие статьи раздела: CMS WordPress


Файл robots.txt для wordpress
Тэги:                                     

Добавить комментарий