Последние статьи из блога > Дубли страниц

Дубли страниц

Для начала дадим определение термину дубли страниц. В понимании поисковых систем это разные страницы, которые имеют различный url адрес в рамках одного сайта, но с одинаковым контентом. Дубли страниц могут быть совершенно незаметными, а могут и раздражать. Дубли страниц могут быть совершенно незаметными, а могут и раздражать. Даже одно предложение уже выглядит немного странным, а теперь представьте, что на сайте сотни дублей страниц. 

Виды дублей

Условно можно разделить на два основных вида и один дополнительный: полные, частичные и смысловые. Чаще всего речь идет о полных дублях, но частичные и смысловые оказывают влияние на позиции сайта в поисковой выдаче. Поэтому игнорировать их не следует.

Полные

Это страницы у которых совершенно одинаковый контент, а разница лишь в url. Вот примеры полных дублей:

  • Технические дубли главной страницы 

site.ru/index.php 

site.ru/index.html

  • Версии сайта с www и без.

https://www.site.ru

https://site.ru

  • Переезд сайта с http на https так же создает временные дубли.
  • Страницы без / или одним и более

https://site.ru/

https://site.ru

https://site.ru////

  • Url с различным регистром. 

https://site.ru/catalog

https://site.ru/CATALOG

  • Неправильная иерархия отделов. 

Например: https://site.ru/catalog/cofe/tovar

https://site.ru/tovar

https://site.ru/catalog/cofe

https://site.ru/cofe/tovar

  • Дубли создающиеся реферальными ссылками без редиректа.
  • UTM-метки. Да, чаще всего они не индексируются поисковыми системами, но бывают исключения.
  • Неточности в настройках 404 страницы приводят к тому, что любой url станет дублем.
  • Первая страница пагинации. Потому что очень часто она идентична главной странице категории или раздела.

Частичные

Частичные дубли это когда контент страниц одинаковый, но может быть небольшая разница в элементах. Ну и конечно у них разный url. Давайте рассмотрим какие можно встретить частичные дубли:

  • Дубли в карточках товаров и категорий. Часто информация из карточки товаров может дублироваться в списке каталога.  Избежать этого можно написанием уникального описания для каждого раздела или указывать описание в каталоге не полностью.
  • Часто дубли возникают на страницах с фильтрами, сортировками, поиском или страницах пагинации, когда фактический адрес меняется, а вот содержимое остается неизменным.
  • Версия для печати. Снова одинаковый контент по разным адресам. В случае версией с печати добавляется /print. Рекомендуется закрывать от индексации такие страницы.

Смысловые

Самые не очевидные дубли страниц. Когда есть две или более страниц, которые имеют очень схожий по смыслу контент. Например, это могут быть две статьи на одну тему. 

Как влияют дубли страниц на сайт

Очевидно, что ничего хорошего сами по себе дубли страниц не несут. Но ведь они оказывают и негативное влияние на сам сайт в целом. Иногда посетителю трудно понять, где нужная ему страница. А если представить в масштабах всего интернета сколько лишних страниц попадается на индексацию роботам и сколько времени на это тратиться. Но вернемся к влиянию:

  1. Снижение релевантности страниц. По одному и тому же запросу поисковая система может выкидывать разные страницы, поочередно подсовываю то одну, то другую.
  2. Снижение веса страницы. Как внутреннего так и ссылочного.
  3. Могут возникнуть проблемы с индексацией. Т.к. робот тратит драгоценный краулинговый ресурс (количество страниц, которые робот обойдет за одно посещение сайта)  на обработку данных, и может случиться так, что нужные страницы не сразу попадут в индекс.
  4. Отрицательно влияет на общую уникальность контента в рамках сайта.

Очевидно, что дубли страниц ухудшают позиции сайта. А это потеря драгоценного трафика, клиентов и финансовые потери как итог.

Как найти дубли страниц на сайте

Способов поиска дублей страниц в настоящее время очень много. В основном это краулеры и различные сервисы. В этой статье мы рассмотрим способы, которые используются в работе Antaria. 

Яндекс.Вебмастер

Для этого нужно зайти в раздел индексирование, далее страницы в поиске и поставить отображение исключенных страниц. Как видим, есть даже такой параметр — дубль, который поможет определить ненужную страницу.

Netpeak Spider

Платный краулер. Можно искать по дублирующимся заголовкам H1, метатегам title и description, по содержимому тега <body>. Сама программа помимо поиска дублей имеет очень много других возможностей. Поэтому рекомендуем к использованию. 

Screaming Frog

Условно бесплатная программа. 500 страниц — это бесплатный порог. Но сама по себе программа незаменима для анализа сайта в целом, ну и работе SEO-специалиста как такового. Поэтому не использовать нельзя. Можно оплатить или найти ключи активации в интернете. Тут так же можно искать по дублям заголовков и метатегов.

Ручные способы

Есть несколько вариантов для тех, кто по каким-то причинам не доверяет этим вашим сервисам и хочет все сам проверить. Эта проверка дает не самые точные результаты + может затянуться на несколько дней. Первое на что стоит обратить внимание, это количество страниц в поиске и сколько показал краулер или в xml-карте. Для этого в Яндекс пишем site:site.ru и смотрим сколько страниц числится в индексе. 

Далее можно проверить по части текста. Проверка всех страниц может занять очень много времени. Поэтому мы проверим только главную и основные разделы. Для этого перед оператором site вставляем часть текста с страницы и заключаем ее в “кавычки”. Далее смотрим результат выдачи — там должна быть одна страница, та с которой и брали текст.

Как удалить дубли страниц

Определились со значением, разобрались с видами и причинами появления. Теперь нужно понять как избавиться от дублей страниц. Очевидным способом является банальное удаление страницы. Это самый простой и эффективный способ. Но не всегда он является лучшим или вообще возможным. 

301 редирект

Если по каким-то причинам вы не знаете что это, то вот статья про редиректы. Делаем редирект с дублирующих страниц на основную. Поисковые роботы видят перенаправление на одну страницу и дубль устранен. А еще редирект позволяет передать вес страницы на другую. Что играет на руку SEO-оптимизатору. Но данный метод подходит не для всех дублей, а для дублей в которых:

  1. Проблемы с использованием слешей /.
  2. Ошибки в иерархии url.
  3. Технические дубли главной страницы или зеркала.
  4. URL в разных регистрах.

Robots.txt

В данном файле есть возможность запретить определенные страницы или даже разделы сайта к индексации. Сделать это можно с помощью disallow. 

user-agent: *

Disallow: /blog

Но тут нужно отметить, что правила прописанные в файле robots.txt являются рекомендацией для роботов поисковых систем. И если последние решат, что страница необходима в поиске, то указание будет нарушено. Это случается очень редко

Метатеги

Метатег <meta name=»robots» content=»noindex, nofollow> указывает поисковым роботам, что данную страницу не нужно индексировать. Данное указание является обязательным  в отличии от disallow в robots.txt. Указывается непосредственно на странице в блоке <head>.

Атрибут rel=canonical

Данный атрибут позволяет указать каноническую страницу. Так же как и в прошлом примере, указывается в блоке <head>. Используется в тех случаях, когда нужно указать основную страницу, но при этом нельзя удалить текущую. Используется, например, на страницах пагинации.

Экспертное мнение

Дубли страниц это серьезная проблема на сайте. Они могут мешать нормальному использованию сайта или ввести в заблуждение пользователя. Но от роботов поисковых систем дубли точно не скроются сами по себе. Яндекс и Google не любят дубли, и поэтому их присутствие на сайте сказывается отрицательно на занимаемых позициях сайта в поиске. Если вы владелец сайта или seo-оптимизатор, то определенно стоит выделить время и поискать дубли страниц, даже если раньше их не замечали. 

Оставить комментарий

avatar
  Подписаться  
Уведомление о

Похожие статьи из блога