Семантический профиль сайта: исследование и анализ плотности вхождения ключевых слов

Наткнулся на одно забугорное исследование на тему оценки контента сайта не только с хорошо всем знакомой позиции количества вхождений и плотности ключевых слов, но и с точки зрения необходимости присутствия характерной для данного типа сайта семантики. Имеется ввиду именно профильная семантика, а не спектр запроса. Выношу вам на суд мой перевод-разбор этого материала.

Анализ вхождений

В мире ключевых слов под этим понятием подразумевается анализ присутствующих на странице слов на предмет их повторений — также это можно назвать известным термином «анализ тошноты страницы». Представим, что у вас есть сайт, занимающийся продажей женской обуви. Проанализировав содержимое какой-либо страницы подобным образом, мы получим что-то вроде этого:

Семантический профиль сайта: количество вхождений

В столбце «Вхождений» мы видим то, сколько раз на странице встречаются слова из левой колонки. Обратите внимание, что в таблице нет каких-либо союзов — и, за, на, в и т.д. Для анализа они не играют роли и игнорируются поисковыми системами. Исключения делаются для имен собственных, но при анализе все равно не учитываются.

Суть исследования

Тем же образом вы можете проанализировать страницы первых 10 результатов выдачи по нескольким поисковым запросам, дабы получить представление о том, какие слова и как часто встречаются на страницах тех или иных ресурсов.

Недавно Searchmetrics провела исследование по похожему принципу. Вот только было обработано не несколько, а 15 000 поисковых запросов, в рамках которых были проанализированы более 350 000 страниц. На графике ниже продемонстрированы результаты этого теста.

Семантический профиль сайта: корреляция

Вертикаль отображает относительный показатель частоты использования релевантных ключевых слов в телах страниц. Горизонталь же показывает среднюю позицию этих страниц в выдаче Google в диапазоне с 1 по 30.

Еще раз обратите внимание, что было обработано порядка 15 000 поисковых запросов, что свидетельствует о немалой статистической достоверности. Как итог — мы можем наблюдать сильную взаимосвязь между высокой плотностью ключевых слов и позицией в рейтинге. Число 0,34 свидетельствует о высокой степени корреляции между полученными данными (синяя линия) и вектором зависимости (зеленая линия). Самостоятельного значения он не несет, не ломайте голову :)

Неужели мы снова вернулись к понятию «плотность вхождений»?

Совсем нет. Это немного другое. Речь идет не о монотонном повторении ключевых слов на странице, а о более сложном аналитическом процессе.

Тупого многократного повторения ключевых слов на странице когда-то было вполне достаточно для того, чтобы занять хорошие места в поисковой выдаче. Это привело к тому, что горячие умы просто наполняли свои страницы «релевантной» абракадаброй и радовались жизни, но эти времена прошли и уже никогда не вернутся.

Изображение ниже показывает примеры и статистистику слов, обнаруженные при анализе контента.

Семантический профиль сайта: зависимость

Скриншот намеренно немного урезан, а потому вы можете увидеть слова «показать» и «распродажа», но не «цена», «корзина», «доставка» и т.д. А если таких слов на страницах электронного магазина нет, то шансы того, что она будет признана местом, где можно действительно купить женскую обувь, значительно ниже.

Страница, на которой присутствуют неестественные сочетания слов также может быть расценена как низкокачественная и нерелевантная. Searchmetrics в 2013 году уже проводили исследование зависимости позиций сайта от его семантического профиля. Результат был примерно таким же, как и в этом году, только вот влияние исследуемого показателя не было насколько высоко.

Конечно поисковая система произведет подобный анализ по куда более сложному алгоритму. Вот лишь краткий список того, как работа поисковой системы будет отличаться от нашего исследования:

Куда более объемная база естественных и неестественных сочетаний слов на страницах для каждого типа сайта.
Понижение релевантности сайта, если на его страницах нет хотя бы минимального набора слов из требуемого семантического профиля. К слову — это один из методов определения автоматически сгенерированного контента.
В анализ контента страницы включаются анкоры ведущих на неё ссылок. Обратным анализом определяется качество анкоров на ссылающихся страницах.
Неестественно большое количество слов из семантического профиля может быть также расценено как нечто некачественное и незаслуживающее доверия.
Подобный анализ можно производить на основе выборки заведомо качественных сайтов, что позволит сделать результаты исследования куда более достоверными.

Что всё это значит?

Задача поисковых систем заключается в определении качественных и релевантных сайтов с хорошо проработанными пользовательскими факторами. Это и должно стать вашей основной целью. Сделайте контент на вашем сайте действительно интересным и полезным, чтобы он максимально полно отвечал на вопросы пользователей.

Изучите сайты из ТОП-10 по профильному для вашего ресурса запросу затем, чтобы определить — какой семантический профиль используется на нём. Изучите их подход к оформлению страниц, включению ключевых слов и проработке пользовательских факторов.

Вы можете попросить ваших знакомых оценить ваши статьи, дать рецензию или критику удобству сайта. Нужно ответственно подходить к тому, чтобы все материалы производили как можно лучшее впечатление.

Материал обновлен: 10 января 2016 года.