Дубли страниц на сайте: вред, проверка, поиск и удаление дублей

Приветствую вас, дорогие читатели SEO блога Pingo. В рамках курса SEO, сегодня мы поговорим о дублях. А именно — что такое дубли страниц на сайте, чем они грозят продвижению, как их найти и убрать.

Что такое дубли страниц на сайте?

Дубли — это страницы с частично или полностью совпадающим контентом, но доступные по разным URL-адресам. Принято их классифицировать как четкие и нечеткие. Примером четких могут послужить зеркала главной страницы сайта:

site.ru
www.site.ru
site.ru/index.php

А нечетких — большие сквозные для всего ресурса участки текста:

Чем опасны дубли страниц?

1. Перескоки релевантных страниц в поисковой выдаче. Самая распространенная проблема, заключающаяся в том, что поисковая система не может однозначно определить, какой из документов следует показывать в выдаче по запросу, тематике которого они удовлетворяют. Как итог — broser rank и поведенческая информация размазываются по дублям, позиции постоянно скачут и далеко не в положительную сторону.

2. Снижение уникальности контента сайта. Ну, тут всё очевидно — идет снижение процента страниц с уникальным контентом, что не может не оказывать негативного влияния на его ранжирование.

3. Размытие ссылочного веса. Тут ситуация несколько аналогична той, что описана во втором пункте — идет «размазывание» внешних ссылок по дублям — будь то ситуации, когда посетитель решил поделиться страницей, оставив её URL на каком-либо, скажем, форуме, ну или вы, в процессе работы с сайтом, запутались и стали закупать часть ссылок на копии. Практически то же самое относится к внутреннему ссылочному весу.

Откуда берутся дубли страниц?

1. CMS. Очень популярная причина, берущая своё начало в несовершенстве работы используемой системы управления. Тривиальная ситуация для примера — когда одна запись на сайте принадлежит к нескольким категориям, чьи алиасы входят в URL самой записи. В итоге мы получаем откровенные дубли, например:

site.ru/category1/post/
site.ru/category2/post/

2. Служебные разделы. Тоже можно отнести к несовершенству функционирования CMS, но из-за распространенности проблемы, выношу её в отдельный пункт. Особенно тут грешат Joomla и Birix. Например, какая-либо функция на сайте (авторизация, фильтрация, поиск и т.д.) плодит параметрические адреса, имеющие идентичный контент относительно страницы без параметров в урле. Например:

site.ru/page.php
site.ru/page.php?ajax=Y

3. Человеческий фактор. Сюда можно отнести всё то, что является порождением рук человеческих:

Упомянутые ранее большие сквозные участки текста.
Сквозные статические блоки.
Банальное дублирование статей.

По второму пункту хотелось бы уточнить, что тут речь тут идет в первую очередь про код. На этот счет идет много дебатов, но я говорю абсолютно точно — большие участки сквозного кода — очень плохо. У меня минимум 3 кейса в практике было, когда сокрытие от роботов сквозняков увеличивало индексацию сайта с 20 до 60 тысяч страниц в течении всего одного-двух месяцев. Но тут банального <noindex> в коде будет недостаточно, а потому я поговорю об этом в отдельном материале.

4. Технические ошибки. Что-то среднее между несовершенством работы CMS и человеческим фактором. Первый пример, который приходит в голову, имел место быть на системе Opencart, когда криво поставленная ссылка привела к зацикливанию:

site.ru/page/page/page/page/../..

Как найти дубли страниц на сайте?

Легче и надежнее всего это будет сделать, пройдя следующие 3 этапа.

1. Программная проверка сайта на дубли страниц. Берем NetPeak Spider, Screaming Frog SEO Spider или любую другую из подобных софтин для внутреннего анализа и сканируем сайт. Затем сортируем, например, по метазаголовкам, и обращаем внимание на их совпадение или полное отсутствие. Совпадение — повод для проверки этих страниц вручную, а отсутствие метаинформации — один из вероятных признаков технического раздела, который лучше закрыть от индексации.

2. Google Webmaster Console. Затем идем в кабинет вебмастера Google, в раздел «Оптимизация HTML»:

Переходим в раздел, например, «Повторяющееся метаописание» и просматриваем страницы, содержащиеся в нем:

В целом данный пункт аналогичен первому. С той лишь разницей, что часто там можно найти дубли, которые не покажет вам парсер ввиду отсутствия ссылок на них на сайте. Тем не менее, они остаются копиями и с ними нужно бороться.

3. Поиск дублей на сайте вручную. Ну, это закрепляющий пункт, в рамках которого мы должны будем уделить полчаса-час на просмотр индекса, обращая внимания на адреса с параметрами или нечленораздельными алиасами.

Как убрать дубли страниц на сайте?

Прежде всего нужно устранить первопричину их появления. И правда — какой смысл корпеть-закрывать дубли от индексации, если через пару дней появятся новые? Это справедливо для ошибок фунционирования CMS, что решается самостоятельно (если дружите с программированием), ну или другим человеком (если дружите с программистами). Если же проблема решена, то можно заняться её хвостами.

1. Закрытие через robots.txt. Самый простой вариант. Как правило все дубли-порождения несовершенства системы управления сайтом, имеют одинаковую структуру алиасов, что позволяет закрыть их «по маске« путем добавления одной-двух директив в файл robots.txt. Подробнее о нем можно почитать тут.

2. 301 редирект. Этот вариант подойдет вам, если копии носят точечный характер и вы не хотите их закрывать от индексации по той или иной причине (например, на них уже кто-то успел поставить внешнюю ссылку). В таком случае просто настраиваем 301 редирект с дубля на основную страницу и проблема решена.

Подробнее о 301 редиректе можно почитать тут. Кроме того, зеркала сайта являются также, суть, дублями, так что их обработка ведется в том же ключе, о чем подробно расписано тут.

3. Link rel="canonical". Это является неплохим решением для описанной выше ситуации, когда один и тот же пост доступен по разным урлам. Для каждого такого поста внедряется в код тег вида <link="canonical" href="http://site.ru/cat1/page.php">, где http://site.ru/cat1/page.php — вариант урла записи, который вы хотите индексировать.

Данный тег программно внедряется для каждого поста и далее пусть у него будет хоть 100 урлов — на всех них в коде будет рекомендация для поисковой системы, какой урл вы советуете индексировать, а на какие не обращать внимания (на страницы, чей собственный url и url в link rel="canonical" не совпадают).

4. Google Search Console. Малопопулярный, но, тем не менее, работающий приём, к которому мы можем обратиться в разделе «Сканирование» — «Параметры URL» из Google Search Console.

Добавляя параметры в эту таблицу, мы можем сообщить поисковому роботу, что страницы ними никак не изменяют содержимого, а потому их можно не индексировать. Но, конечно, возможны и другие варианты, при которых содержимое раздела при включении параметра в адрес «перемешивается», оставаясь, однако, при этом неизменным по своему составу (например, сортировка по популярности записей в категории).

Указав об этом в данном разделе, мы тем самым поможем Google лучше интерпретировать сайт в процессе его сканирования. Сообщив о предназначении параметра в URL, вопрос об индексации таких страниц лучше оставить «На усмотрение робота Googlebot&rauqo;.

Часто задаваемые вопросы

Многостраничные разделы (пагинация) — дубли или нет? Закрывать ли от индексации?

Нет, не нужно их закрывать ни от индексации, ни ставить rel="canonical" на первую страницу раздела, так как они имеют уникальный относительно друг-друга контент, а потому не являются дублями. Поисковые системы прекрасно умеют распознавать пагинацию, ну а для пущей надежности достаточно будет снабдить их элементами микроразметки rel="next" и rel="prev". Например:

<link rel="next" href="URL следующей по порядку страницы раздела">

<link rel="prev" href="URL предыдущей страницы раздела">

Урлы с хештегами (#) — дубли или нет? Удалять ли их?

Нет. Поисковая система по умолчанию не индексирует страницы с # в адресе, так что по этому поводу волноваться не надо.

Вот, наверно, и всё. Вопросы?

Дубли страниц: что это, чем вредны, как найти и убрать