как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы

Анализ и значение алгоритма Hilltop

Источник: promodo.ru

В предыдущей статье обсуждалось, почему мы считаем, что Google применил алгоритм Hilltop в своём обновлении, известным как Florida. Как обычно, Google умолчал о тонкостях усовершенствования своего алгоритма, так что наш анализ базируется на собственных исследованиях и экспериментах.

 

Почему потребовался новый алгоритм?

«По мере того, как ведутся поисковые войны между Google, MSN и Yahoo, мы не только станем свидетелями сметающих всё изменений алгоритмов, но также и новых измерений в технологиях и взаимодействиях с поисковой машиной».

В то время, как алгоритм PR (page rank) неплохо справлялся все эти годы, всё же в системе PR существует существенный недостаток, и Google знал об этом. Система PR определяет абсолютную «степень ценности» web-страницы, основываясь на количестве и качестве сайтов, ссылающихся на неё.

Тем не менее, PR-ценность не специфична для поисковых терминов и поэтому, высокий PR страницы, содержащей упоминание off-топиковой ключевой фразы, часто обеспечивал высокое ранжирование по этой фразе. Krishna Bharat из Калифорнии осознавая недостаток этой основывающейся на PR ранжирующей системы, выступил в 1999-2000 гг. с алгоритмом, который назвал «Hilltop». Он оформил патент Hilltop в январе 2001 г. в соавторстве с Google. Нет нужды говорить о том, что Google понял достоинства, приобретаемые с этим новым алгоритмом для своей системы ранжирования, присоединив его к собственной системе PR. Hilltop мог прекрасно восполнить имеющийся пробел. Алгоритм Hilltop перед применением, возможно, подвергся некоторой доработке.

 

Что же такое алгоритм Hilltop?

Вот вам простое объяснение: по своей сути, PR определяет «авторитетность» web-страницы в общем. Hilltop (он же LocalScore — «локальный счет») определяет «авторитетность» web-страницы по отношению к данному запросу или поисковому термину. Bharat формулирует, что вместо использования просто «PR ценности» для нахождения «авторитетных» web-страниц, более важным будет, если «ценность» обладает тематической релевантностью. Исходя из этого, более полезно подсчитывать ссылки от «тематически релевантных» документов на данную страницу. Он назвал эти «тематически релевантные» документы «экспертными документами», а ссылки от таких экспертных документов на целевые документы определил как «показатель авторитетности» последних.

Алгоритм Hilltop вычисляет «показатель авторитетности» web-страниц (слишком упрощенно выражаясь) следующим образом.

Запустите обычный поиск по ключевой фразе для определения экспертных документов. Определяющие правила для «экспертных документов» жёстки, поэтому это вполне определённое, поддающееся управлению количество web-страниц.

Отфильтруйте дочерние (affiliate) сайты и скопируйте сайты из списка экспертных.

Страницы определены по местному показателю (LocalScore) «авторитетности», основанному на количестве и качестве голосов, получаемых от экспертных документов. Затем страницы ранжируются в соответствии с их LocalScore.

 

Как Hilltop определяет дочерние (affiliate) сайты?

Affiliate-сайты определяются следующим образом:

Необходимо заметить, что алгоритм Hilltop строит свои подсчёты только на «экспертных документах». Его алгоритм требует нахождения, по крайней мере, двух экспертных документов, голосующих за страницу. Если алгоритм не находит минимум двух экспертных документов, результаты поиска будут нулевые. Это, собственно, означает, что алгоритм Hilltop не смог придать какой-либо ценности дальнейшему ранжированию и поэтому становится неэффективным по данному поисковому термину.

Это очень важный аспект алгоритма Hilltop — он неэффективен в случае не нахождения экспертных документов. Эта уникальная черта алгоритма Hilltop, имеющая большую вероятность выдачи «нулевого» результата по высокоспецифичному термину запроса, привела большинство SEO сообщества к уверенности в том, что Google использует фильтр-список «денежных слов». На самом деле, результаты «старого Google» показывались по специфическим поисковым терминам там, где Hilltop не справлялся. Коллекция таких терминов и была тем, что собирало SEO сообщество и называло её «Списком Денежных Слов» (Money Words List).

Этот эффект также выступает сильным доводом в пользу употребления Hilltop Googl-ом. Когда 15 января 2003 г. Google внедрил этот новый алгоритм, один аналитик заметил, что если вы подаёте запрос с некоторыми «эксклюзивными» мусорными символами, то Google показывает исходные (до изменения алгоритма) результаты, обходя фильтрованый список так называемых «денежных слов».

Например, если вы ищете real estate –hgfhjfgjhgjg –kjhkhkjhkjhk, то Google попытается показать вам страницы по real estate (недвижимость), но исключая те, которые содержат термины hgfhjfgjhgjg и kjhkhkjhkjhk. Поскольку легко понять, что вряд ли встретится страница, содержащая слова hgfhjfgjhgjg и kjhkhkjhkjhk, Google возвратит те же результаты, что и по термину real estate. Тем не менее, так не происходило.

Google показывал результаты, которые, казалось, были идентичными ранжированию до изменения алгоритма. В конце концов, группа анти-Google основала сайт (www.scroogle.org) для блокировки изменений в ранжировании, убирая фильтр-список так называемых «денежных слов».

 

Какова же настоящая история, стоявшая за фильтр-списком так называемых «денежных слов»?

Мы считаем, что эффект фильтр-списка «денежных слов» был всего лишь эффектом «промашки» алгоритма Hilltop. Всякий раз, когда кто-то пытался найти поисковый термин вроде real estate –hgfhjfgjhgjg –kjhkhkjhkjhk, Google передавал весь поиск Hilltop. Поскольку Hilltop был неспособен определить удовлетворяющие «экспертные» документы, содержащие данный «смешно выглядевший» поисковый термин, то выдавался нулевой результат. Это явственно значит, что Hilltop попросту «шунтировал» эксклюзивный поисковый термин. Прочей части алгоритма Google оставалось извлечь и предоставить результаты, которые, вероятно, выглядели идентичными с результатами до внедрения алгоритма.

Растущая популярность www.scroogle.org привела Google к определению этого бага. Google обезвредил баг, разделив алгоритм Hilltop на 2-х ступенчатый процесс. Необычные (эксклюзивные) слова изымаются при передаче запроса на Hilltop; Hilltop делает свою работу, извлекает результаты и передает их алгоритму Google. Google исключает слова лишь перед тем, как показать результаты. Просто. Эксклюзивные слова больше не передаются на Hilltop, и теперь Hilltop работает превосходно. Как вы можете видеть на сайте Google, вышеуказанный метод удаления больше не показывает результаты «старого Google».

 

Как выглядит новый алгоритм Google? Что нового?

Соединение алгоритма Hilltop, Google-PR и факторов релевантности on-page, казалось бы, комбинация высокой мощности, которую очень трудно победить. Не невозможно, но очень трудно. Такая новая комбинация имеет далеко простирающиеся зависимости того, как link-popularity/PageRank (популярность ссылок и ранг страницы) и ссылки с Expert Documents (LocalScore) (экспертные документы) будут нарушать ранжирование вашего сайта. Точный алгоритм Google известен только Google. Это строго охраняемый секрет. Я не хорош в математике, но вот попытка упростить новый алгоритм Google для того, чтобы понять, что же он из себя представляет.

Старая формула ранжирования Google = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)}

Новая формула ранжирования Google = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)} * {(1-f)+c (LS)}

Где:

RS = RelevanceScore — показатель релевантности (показатель, основанный на ключевых словах, появляющихся в заголовке, мета-тегах, подзаголовках, в основном тексте, URL, атрибуте alt, атрибутах заголовка, якорном тексте и т.д.);

PR = PageRank: — ранг страницы (показатель, основанный на количестве и PR значении страниц, ссылающихся на ваш сайт. Исходная формула PR (A) = (1-d) + d (PR (t1)/C (t1) + ... + PR (tn)/C (tn)), где PR страницы A — это сумма PR каждой страницы, ссылающейся на неё, поделенная на количество исходящих ссылок на каждой из этих страниц, d — это фактор амортизации (dampening factor), считающийся равным 0.15);

LS = LocalScore — локальный счёт (локальный показатель; показатель, вычисленный из экспертных документов), вариабелен и имеет различные значения в отношении поискового термина, появляющегося в заголовке, подзаголовке, якорном тексте, частоте поискового термина и т.д.;

a, b, c = Tweak Weight Controls — тонкая подстройка веса (имеющаяся у Google для тонкой подстройки результатов);

d, e, f = Dampener Controls — демпфирующий контроль (имеющийся у Google для тонкой подстройки результатов. Мы полагаем, что обычно величина f установлена на ноль);

fb = FactorBase — фактор базы (Шкала PageRank от 1 до 10 на Google bar не линейная, но экспоненциально/логарифмическая. В соответствии с нашими внутренними исследованиями, мы считаем, что эта база «близка» к 8. Это означает, что PR5 в 8 раз больше по значению, чем PR4. Таким образом, веб-сайт PR8 имеет ценность в 4000 раз больше, чем веб-сайт PR4. Этот фактор каким-то образом должен быть встроен в формулу алгоритма. Поэтому мы взяли величину fb для аккомодации данного фактора).

 

Заслуги нового алгоритма Google

Поисковики всегда немного варьировали степень достоверности своего алгоритма ранжирования в зависимости от факторов, расположенных на самой на странице. Факторы on-page дают web-мастерам слишком много власти для злоупотреблений. Видимые части web-страниц менее склонны к спаму, так как им требуется нести больше смысла посетителям.

Тем не менее, в течении некоторого времени, даже эти факторы были субъектами злоупотреблений путем представления суб-стандартного, чрезмерно-оптимизированного, либо даже прикрытого содержимого поисковым машинам.

 

В чём заключается новое распределение веса ранжирования?

Если вы заметите в приведенной выше формуле, Google несколько уменьшил вес факторов находящихся непосредственно на самой странице. Единственная переменная on-page в формуле — это RelevanceScore. Наш анализ формулы и поведение Google показывает, что общий вес распределился на три составляющие (RS-группа, PR-группа и LS-группа) следующим образом:

RelevanceScore (показатель релевантности) = 20%, PageRank = 40%, LocalScore = 40%.

Где:

RS — выражение всех попыток SEO;

PR — выражение попыток построения ссылок, Link-building;

LS — выражение ссылок от экспертных документов.

Google поднял важность внестраничных факторов, забирая контроль над ранжированием у web-мастеров. Как вы видите, от ваших попыток SEO явно мало пользы. Если обычный эксперт SEO способен уравнять 10% этого веса, а супер эксперт SEO — 18%, общая разница в ранжировании между средним SEO и великим SEO всего лишь около 8%. Новость: правила SEO и ранжирования просто изменились!

 

Работает ли Hilltop в реальном времени?

Google использует 10 000 Pentium серверов, расположенных в сети. Если мы изучаем алгоритм Hilltop, то трудно поверить, что такие Pentium серверы обладают достаточной процессорной силой для нахождения «экспертных документов» из тысяч тематических, для оценки LocalScore целевых страниц и передачи данных другим компонентам алгоритма Google, который далее обрабатывает результаты, все на лету, всего лишь за около 0.07 секунд — скорость Google весьма знаменательна.

 

Так как же и когда Hilltop успевает?

Мы считаем, что Google ведет групповую обработку популярных поисковых терминов (так называемый «список денежных ключевых слов») и сохраняет результаты готовыми к употреблению. Google имеет обширную базу данных популярных поисковых терминов в своей базе, собранную при обычных поисках, так же, как и ключевые фразы, используемые в программе AdWords. Возможно, Google установил оценочный порог по количеству поисков определенной фразы, прежде чем она будет достойной попасть в пул Hilltop для групповой обработки. Hilltop прогоняет общий пул популярных поисковых терминов, возможно, раз в месяц. Дифференциально меньшая по размеру групповая обработка может проводиться более часто по поисковым терминам, набирающим популярность и отбираемыми для попадания в пул Hilltop. Результаты для основного пула могут быть синхронизированы с 10 000 серверами раз в месяц, а меньшие группы могут уточняться и более часто.

Поисковые термины, которые не подходят к алгоритму Hilltop, продолжают показывать старые результаты Google. Множество SEO счастливы и утверждают, что их списки по некоторым сайтам клиентов не падают. Они, наверное, проверяют по высоко специфическим поисковым терминам, которые ещё не отобраны, чтобы быть на виду Hilltop.

Google получил патент в феврале 2003 года. Почему внедрение заняло так много времени? Тестирование, тестирование, тестирование! Пробы на совместимость, снова тестирование, оценки результатов, окончательная отладка и последующие тесты. Наверное, не так то просто было внедрить это изменение. Алгоритм должен был работать безукоризненно совместно с существующими компонентами PR и алгоритмом подсчета релевантности RelevanceScore Google. Я полагаю, всё это заняло время.

 

Существуют ли в новом алгоритме Google какие-либо недостатки?

При продолжении нашего исследования, мы ожидаем обнаружить некоторые баги и несостыковки. Вот некоторые моменты, которые, как мы считаем, могут навредить Google и его пользователям:

1. Hilltop основывается на предположении, что каждый «экспертный документ», который он находит, будет беспристрастен, свободен от спама и манипуляций. Мы чувствуем, что это может быть не так. Даже если малый процент экспертных документов контаминирован, подсчёты увеличат ошибку, что приведет к значительному количеству «ложно положительных» ответов в верху ранжирования.

2. Hilltop старается выбирать страницы, за которые проголосуют, как за «авторитетные». Но нет гарантии, что эти страницы также будут «качественные».

3. Мы считаем, что поскольку для функционирования Hilltop требуется значительная процессорная мощь, он (возможно) будет обрабатывать группу популярных терминов с месячной частотой. Это спарено с тем фактом, что существенный вес в алгоритме Google занимает часть Hilltop. Мы можем ожидать появление сайтов, продолжающих ранжироваться без флюктуаций до следующего цикла обработки. Поскольку голосующие шаблоны «экспертных» страниц, скорее всего, не будут колебаться, мы можем наблюдать «замершее» ранжирование через определенные периоды. Это может гладить против шерсти поисковики, от которых также ожидается включение «нового, хорошего» содержания в результат поиска. Оставим «авторитетные» страницы. Люди тоже желают видеть свежее содержание, которое будет теперь видно лишь по менее конкурентным или уникальным поисковым терминам, где Hilltop-у не справиться.

4. Новые сайты обнаружат невероятные сложности с ранжированием, равно и при популярных поисковых терминах. Кажется, Google создал более высокий барьер для новых сайтов или нового содержания для ранжирования с очень популярными поисковыми терминами.

5. Поскольку большинство коммерческих сайтов весьма легко ссылаются на директории, торговые ассоциации, правительственные сайты торговых властей, образовательные учреждения, не прибыльные организации, то такие сайты заполонят первую десятку по ранжированию на страницах результатов, ещё в большей мере.

 

Кто пострадает в ближайшее время?

 

Рекомендации владельцам сайтов

Им требуется думать шире своих пределов и уделить серьёзное внимание улучшению PageRank и ссылок от «экспертных документов», относясь к этому, как своего рода компаниям по промоушену. Правила ранжирования существенно изменились.

Регистрируйтесь как можно в большем количестве директорий (DMOZ, Yahoo, About, LookSmart и т.д.), в торговых директориях, желтых страницах, ассоциациях, ресурсных страницах, на страницах высоко классифицирующихся отделов и т.д.

Избегайте поддоменов или измените их природу.

Избегайте ссылок с подозрительных FFA сайтов и ссылочных ферм.

 

Популярные мифы

Чрезмерная оптимизация сейчас наказуема.
Чрезмерная оптимизация (спам) всегда либо не принималась во внимание, либо наказывалась. Текущее влияние на потерю ранжирования определяется благодаря сдвигу веса от внутристраничных факторов в сторону внестраничных. Хорошая оптимизация сайта будет продолжать поддерживать ранжирование пропорционально своей доле в алгоритме.

Построение ссылок не является важным.
Построение ссылочной популярности так же важно, как и прежде. Сейчас даже более важно. Алгоритм PR продолжает набирать значение.

Google использует список-фильтр «денежных слов».
Как вы видите из вышеперечисленных аргументов, Google не использует никакого списка-фильтра для наказания коммерческих сайтов. Результаты представляют просто «кажущееся» указание таких симптомов. Также Google не применяет этот алгоритм для пропихивания своей AdWords или построения основы для грядущей IPO.

Упоминание в DMOZ, директории Google, коммерческих директориях дает Google ключ к тому, что ваш сайт коммерческий и поэтому наказывает его.
Наоборот: поскольку большинство этих директорий определяются, как «экспертные документы», ссылки от этих сайтов весьма ценны.

 

как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы