Robots.txt — это самый обычный текстовый файл, в котором содержатся инструкции для поисковых систем. Инструкции дают рекомендации по индексированию сайта. Тут стоит отметить, что именно рекомендации, т.е. поисковые роботы могут проигнорировать и посмотреть в разделы, которые закрыты. Сам файл должен располагаться в корневом каталоге сайта : http://antaria.in/robots.txt
Для того, что бы роботы увидели файл, есть определенные параметры:
- Файл должен иметь название robots.txt;
- Файл должен быть в одном экземпляре;
- Уго размер не должен превышать 32кб (для Яндекс);
- Код ответа должен быть 200 ОК.
Для чего нужен robots.txt
Любой сайт имеет страницы, которые не нужны для поиска. Это могут быть:
- Зеркала;
- Страницы с поиском по сайту и информацией с результатами;
- Страницы с личной информацией пользователей;
- Технические страницы или дубли.
Наглядно понять, правильную работу robots.txt поможет эта картинка.
На ней мы видим, что правильно составленный robots.txt закрывает от индексации такие папки как admin, tmp и private. Т.е. в поиске их не будет.
Как создать robots.txt
Прежде всего необходимо создать сам файл, в котором будем указывать инструкции. Сделать это можно с любого текстового редактора, например, Notepad. Рассмотрим основные инструкции.
User-agent
Это правило позволяет адресовать инструкции отдельно для каждого поискового робота. Т.к. их довольно много, то есть возможность указать как отдельно, так и для всех вместе.
А в данном примере мы указываем в robotx.txt для googlebot персонально
И для Яндекс соответственно
В основном веб-мастера используют отдельно для Google и Яндекс плюс общие для остальных. Но тут уже зависит от необходимости, которая может возникнуть.
Вот небольшой список распространенных специальных роботов:
- Googlebot-News — для поиска новостей;
- Mediapartners-Google — для сервиса AdSense;
- AdsBot-Google — для проверки качества целевой страницы;
- YandexImages — индексатор Яндекс.Картинок;
- Googlebot-Image — для картинок;
- YandexMetrika — робот Яндекс.Метрики;
- YandexMedia — робот, индексирующий мультимедийные данные;
- YaDirectFetcher — робот Яндекс.Директа;
- Googlebot-Video — для видео;
- Googlebot-Mobile — для мобильной версии;
- YandexDirectDyn — робот генерации динамических баннеров;
- YandexBlogs — робот поиск по блогам, индексирующий посты и комментарии;
- YandexMarket— робот Яндекс.Маркета;
- YandexNews — робот Яндекс.Новостей;
- YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы;
- YandexPagechecker — валидатор микроразметки.
Disallow
Disallow позволяет закрыть от индексации в robots.txt разделы, папки или страницы. В данном примере мы закрыли весь сайт от индексации:
А что бы запретить индексирование отдельной папки нужно просто написать:
Теперь закрыли конкретный файл:
Allow
Allow дает возможность индексировать файлы, страницу или разделы. Например, необходимо открыть каталог, но при этом остальной сайт оставить вне зрения поисковой выдачи, в таком случае необходимо написать:
Host
Host — это обязательное правило для правильного robots.txt. Позволяет сообщить поисковым роботам какое из зеркал сайта нужно считать главным.
Важно знать, что сайты указываются без приставки http://, но если у сайта есть протокол https://, то указывать ее необходимо:
Sitemap
Инструкция указывает на файл sitemap.xml который содержит в себе все ссылки и структуру сайта, что позволяет ускорить процесс индексации. Особенно необходимо для сайтов с большим количеством контента, например, интернет-магазины.
Crawl-delay
Используется в том случае, если сервер сильно перегружен и возникают проблемы со скоростью обработки запросов робота. Проще говоря, мы просто можем задать минимальный период времени в секундах между загрузками страниц. Но работает это только для Яндекс, Google выдает сообщение, что этот параметр является лишним, о чем заявил ⅕ года назад. Чтобы правильно вписать это правило, необходимо указать его после директив Disallow и Allow.
Символы в robots.txt
Основные символы которые используются это — / $ и #
Слеш «/» помогает показать роботу, что именно мы хотим закрыть. Например, если в правиле Disallow стоит один слеш /catalog, то мы запрещаем сам каталог и все url которые идут после него. А если добавить в конце /catalog/, то закроем только сам каталог.
Звездочка «*» говорит о том, что не нужно индексировать все файлы с указанным правилом, например:
А знак $ ограничивает действие *. В таком случае, когда нужно запретить содержимое папки, но нельзя запретить некоторые url, которые содержат запись /catalog.
Знак решетки «#» используется для комментариев. Можно написать все что угодно, поисковые системы игнорируют все что за знаком #. Т.е. увидеть это можно только открыв файл.
Как проверить файл robots.txt
Есть множество сторонних сервисов, но лучше всего воспользоваться официальными инструментами от Яндекс и Google. В Яндекс просто вводим адрес сайта. Ниже будет информация о файле robots.txt, а еще ниже можно будет проверить интересующий раздел или страницу отдельно. В Google можно посмотреть по каждому сайту в его разделе.
Основные ошибки в robots.txt
Сделать ошибку совсем не сложно. Начать можно с названия файла.
- Правильно писать robots.txt, не Robots.txt и не ROBOTS.txt;
- Правило User-agent всегда должно содержать адресата, оставлять пустым нельзя;
- Лишние знаки в файле, звездочки или слешы;
- Несколько записей в инструкции Disallow /catalog/ /shop/ и т.д. Для каждого раздела необходимо писать новую инструкцию.
Экспертное мнение
Robots.txt интересный инструмент. Напрямую он не влияет на SEO продвижение и качество сайта в целом, но вот правильность его заполнения может оказать как положительный, так и отрицательный эффекты. Поэтому стоит уделить немного времени, удалить ненужные страницы и разделы из индексирования. Представить только, сколько времени поисковые роботы тратят на ненужные страницы! Также с помощью комментариев можно приветствовать любопытных людей. Ну или немного рассказать о себе, как это сделал Google, создав специальный файл humans.txt.
Оставить комментарий