Оптимізація robots.txt для WordPress

Всі напевно знають, що таке robots.txt, для чого він потрібен і з чим його їдять. Якщо хтось все-таки не в курсі, robots.txt – це текстовий файл, в якому містяться інструкції для роботів пошукових систем.

У ньому можна забороняти індексацію сторінок або розділів на сайті, вказувати правильне дзеркало домену, вказувати наявність sitemap.xml. Є ще багато різних функцій та команд, але ми поговоримо про самі основні, озвучені мною. І розглянемо це на прикладі самого популярного на сьогоднішній момент  WordPress.

До речі не можу не висловити подяку ЧУП “Гусаров Групп”, які пропонують создание сайтов, за допомогою яких був зібраний даний матеріал.

Отже, Будова цього файлу повинна бути одним з перших дій при створенні сайту або його просуванні (якщо цього файлу ще немає). Природно, головне саме правильна його будова, так як при будь-яких недоліках можуть виникнути певні проблеми з індексацією. Існує думка, яка кілька разів доведена на практиці, що ПС іноді плюють на robots.txt і індексують все підряд, але це дуже велика рідкість і вже зовсім інша історія.

Отже, які команди будуть потрібні нам для створення правильного Роботс:

User-Agent

Вказується ім’я робота, до якого застосовуються правила, описані в robots.txt (не повинно бути порожнім)

Allow і Disallow

Дозволяється, і, відповідно, забороняється доступ до деяких розділів сайту, або до всього ресурсу цілком. Allow підтримується тільки Яндексом і Гуглом.

Спочатку потрібно використовувати директиву Allow, а тільки після неї Disallow, і між ними не повинно бути порожнього рядка, як власне і з директивою User-Agent.

Host

Вказівка ​​головного дзеркала сайту. Використовується тільки для Яндекса, який пише з цього приводу: «Дана директива не гарантує вибір зазначеного головного дзеркала, тим не менш, алгоритм при ухваленні рішення враховує її з високим пріоритетом»

Sitemap

Вказівка ​​роботу про наявність та шляхи карти сайту у форматі xml

Існують також спецсимвол *, який означає будь-яку послідовність символів. Тепер перейдемо до самого створення robots.txt – створюємо звичайний текстовий файл і починаємо з першої директиви User-Agent. Ось список найбільш актуальних ботів для РУнета – Yandex, YandexBlog, Googlebot, StackRambler, msnbot (бот Bing).

Якщо ж звичайний сайт, тоді особисто для себе, я не виділяю конкретних ботів, а пишу єдине правило для всіх, якщо блог – тоді спочатку потрібно виділити бота Яндекс.Блог і дозволити йому все, тому що він ходить тільки по фідам і в адмінку та інші не потрібні розділи сам не полізе:

User-agent: YandexBlog
Disallow:
User-Agent: *

Якщо будете використовувати декілька юзерагентів, тоді перед кожним наступним обов’язково повинен бути порожній рядок! І починати краще з конкретних роботів, а тільки потім використовувати *.

Так, тепер директиви Allow і Disallow.

Allow: /wp-content/uploads /
# Тут ми відкриваємо доступ тільки до папки uploads для трафіку по картинках (в ній зберігаються зображення завантажені через адмінку wp), тому що потім будемо закривати від індексації папку більше верхнього рівня wp-content.

Переходимо до Disallow – дуже важлива директива. З її допомогою можна закривати розділи, в яких дублюються контент – це теги, категорії, архіви, календар і т.д. Що і як закривати, я наведу приклад, а далі справа за вами, тому що можу сказати зі свого і чужого досвіду, що без будь-яких інших грубих порушень (проблеми з хостингом, відвертий ГС, неякісний рерайт або взагалі вкрадений контент) за дублювання тексту в рамках одного домена – не буде накладено жодних санкцій і фільтрів!
Тому не бійтеся цього, роблячи нормальні, якісні сайти з унікальним контентом (нехай навіть сателіти). Спочатку закриваємо службові директорії (сторінки реєстрації та авторизації, адмінку, сторінки теми, плагіни):

Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content

Тепер вже вибір за вами, які розділи вашого сайту або блогу на WP закривати, а які ні, я лише наведу приклад закриття популярних розділів:

Disallow: /tag
# Цілком можна просувати сторінки тегів в пошукових системах, тому двічі подумайте перед закриттям їх від індексації
Disallow: /category
Disallow: /archive
# Будьте обережні, зверніть увагу на те, яким чином у вас у блозі виводяться статті, тому що у блозі статті можуть мати урл – http://ваш сайт/archive/123, і ви можете закрити їх від індексації
Disallow: /author
# Якщо такий є у вашому шаблоні

Тепер закриваємо від індексації фіди, різні трекбеків, коментарі у вашому ФІДІ і сторінки пошуку по сайту:

Disallow: * /trackback /
Disallow: * /feed /
Disallow: * /comments /
Disallow: /?Feed =
Disallow: /?S =

І нарешті, дві останні директиви:

Host: ваш сайт.ru
Sitemap: http:// ваш сайт.ru / sitemap.xml

З шляхом до карти сайту у форматі xml думаю все зрозуміло, а за умов згадування головного дзеркала, особисто я майже завжди використовую варіант без www, так як майже в кожному випадку доменне ім’я так виглядає і запам’ятовується краще. Якщо ж домен краще згадувати з www, тоді вкажіть це в директиві Host.

Також існує ще кілька директив, які допоможуть власникам сайтів, наприклад: Crawl-delay, Clean-param. Опис і застосування всіх цих директив, стосовно самої популярної пошукової системи – Яндексу, можна знайти в його Help .

У результаті у нас виходить такий robots.txt, який повністю готовий для застосування його на своєму блозі:

User-agent: YandexBlog
Disallow:
User-Agent: *
Allow: /wp-content/uploads /
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: / tag
Disallow: /category
Disallow: /archive
Disallow: * /trackback /
Disallow: * /feed /
Disallow: * /comments /
Disallow: /?Feed =
Disallow: /?S =
Host: ваш сайт.com
Sitemap: http://ваш сайт.com/sitemap.xml

Ви можете залишити коментар, чи трекбек з вашого власного сайту.

Залишити коментар