Последние статьи из блога > Что такое файл robots.txt

Robots.txt — это самый обычный текстовый файл, в котором содержатся инструкции для поисковых систем. Инструкции дают рекомендации по индексированию сайта. Тут стоит отметить, что именно рекомендации, т.е. поисковые роботы могут проигнорировать и посмотреть в разделы, которые закрыты. Сам файл должен располагаться в корневом каталоге сайта : http://antaria.in/robots.txt

Для того, что бы роботы увидели файл, есть определенные параметры:

  • Файл должен иметь название robots.txt;
  • Файл должен быть в одном экземпляре;
  • Уго размер не должен превышать 32кб (для Яндекс);
  • Код ответа должен быть 200 ОК.

Для чего нужен robots.txt

Любой сайт имеет страницы, которые не нужны для поиска. Это могут быть:

  • Зеркала;
  • Страницы с поиском по сайту и информацией с результатами;
  • Страницы с личной информацией пользователей;
  • Технические страницы или дубли.

Наглядно понять, правильную работу robots.txt поможет эта картинка.

На ней мы видим, что правильно составленный robots.txt закрывает от индексации такие папки как admin, tmp и private. Т.е. в поиске их не будет.

Как создать robots.txt

Прежде всего необходимо создать сам файл, в котором будем указывать инструкции. Сделать это можно с любого текстового редактора, например, Notepad. Рассмотрим основные инструкции.

User-agent

Это правило позволяет адресовать инструкции отдельно для каждого поискового робота. Т.к. их довольно много, то есть возможность указать как отдельно, так и для всех вместе.

А в данном примере мы указываем в robotx.txt для googlebot персонально

И для Яндекс соответственно 

В основном веб-мастера используют отдельно для Google и Яндекс плюс общие для остальных. Но тут уже зависит от необходимости, которая может возникнуть.

Вот небольшой список распространенных специальных роботов:

  • Googlebot-News — для поиска новостей;
  • Mediapartners-Google — для сервиса AdSense;
  • AdsBot-Google — для проверки качества целевой страницы;
  • YandexImages — индексатор Яндекс.Картинок;
  • Googlebot-Image — для картинок;
  • YandexMetrika — робот Яндекс.Метрики;
  • YandexMedia — робот, индексирующий мультимедийные данные;
  • YaDirectFetcher — робот Яндекс.Директа;
  • Googlebot-Video — для видео;
  • Googlebot-Mobile — для мобильной версии;
  • YandexDirectDyn — робот генерации динамических баннеров;
  • YandexBlogs — робот поиск по блогам, индексирующий посты и комментарии;
  • YandexMarket— робот Яндекс.Маркета;
  • YandexNews — робот Яндекс.Новостей;
  • YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы;
  • YandexPagechecker — валидатор микроразметки.

Disallow

Disallow позволяет закрыть от индексации в robots.txt разделы, папки или страницы. В данном примере мы закрыли весь сайт от индексации:

А что бы запретить индексирование отдельной папки нужно просто написать:

Теперь закрыли конкретный файл:

Allow

Allow дает возможность индексировать файлы, страницу или разделы. Например, необходимо открыть каталог, но при этом остальной сайт оставить вне зрения поисковой выдачи, в таком случае необходимо написать:

Host

Host — это обязательное правило для правильного robots.txt. Позволяет сообщить поисковым роботам какое из зеркал сайта нужно считать главным.

Важно знать, что сайты указываются без приставки http://, но если у сайта есть протокол https://, то указывать ее необходимо:

Sitemap

Инструкция указывает на файл sitemap.xml который содержит в себе все ссылки и структуру сайта, что позволяет ускорить процесс индексации. Особенно необходимо для сайтов с большим количеством контента, например, интернет-магазины.

Crawl-delay

Используется в том случае, если сервер сильно перегружен и возникают проблемы со скоростью обработки запросов робота. Проще говоря, мы просто можем задать минимальный период времени в секундах между загрузками страниц. Но работает это только для Яндекс, Google выдает сообщение, что этот параметр является лишним, о чем заявил ⅕ года назад. Чтобы правильно вписать это правило, необходимо указать его после директив Disallow и Allow. 

Символы в robots.txt

Основные символы которые используются это — / $ и #

Слеш «/» помогает показать роботу, что именно мы хотим закрыть. Например, если в правиле Disallow стоит один слеш /catalog, то мы запрещаем сам каталог и все url которые идут после него. А если добавить в конце /catalog/, то закроем только сам каталог.

Звездочка «*» говорит о том, что не нужно индексировать все файлы с указанным правилом, например:

А знак $ ограничивает действие *. В таком случае, когда нужно запретить содержимое папки, но нельзя запретить некоторые url, которые содержат запись /catalog.

Знак решетки «#» используется для комментариев. Можно написать все что угодно, поисковые системы игнорируют все что за знаком #. Т.е. увидеть это можно только открыв файл.

Как проверить файл robots.txt

Есть множество сторонних сервисов, но лучше всего воспользоваться официальными инструментами от Яндекс и Google. В Яндекс просто вводим адрес сайта. Ниже будет информация о файле robots.txt, а еще ниже можно будет проверить интересующий раздел или страницу отдельно. В Google можно посмотреть по каждому сайту в его разделе.

Основные ошибки в robots.txt

Сделать ошибку совсем не сложно. Начать можно с названия файла. 

  • Правильно писать robots.txt, не Robots.txt и не ROBOTS.txt;
  • Правило User-agent всегда должно содержать адресата, оставлять пустым нельзя;
  • Лишние знаки в файле, звездочки или слешы;
  • Несколько записей в инструкции Disallow /catalog/ /shop/ и т.д. Для каждого раздела необходимо писать новую инструкцию.

Экспертное мнение

Robots.txt интересный инструмент. Напрямую он не влияет на SEO продвижение и качество сайта в целом, но вот правильность его заполнения может оказать как положительный, так и отрицательный эффекты. Поэтому стоит уделить немного времени, удалить ненужные страницы и разделы из индексирования. Представить только, сколько времени поисковые роботы тратят на ненужные страницы! Также с помощью комментариев можно приветствовать любопытных людей. Ну или немного рассказать о себе, как это сделал Google, создав специальный файл humans.txt

Оставить комментарий

avatar
  Подписаться  
Уведомление о

Похожие статьи из блога