как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы

Алгоритм сортировки страниц HITS

Источник: SeoResearcher.com, 20.08.2006

Этот алгоритм впервые описал Джон Клейнберг (Jon Kleinberg) в своей статье «Авторитетные источники в гипертекстовой среде» («Authoritative Sources in a Hyperlinked Environment», 1998). В алгоритме HITS (Hyperlink Induced Topic Distillation) авторити-страницы и хабы взаимно определяют вес друг друга. Значимость авторити-страницы рассчитывается как сумма весов хабов, указывающих на неё, а вес хаба, в свою очередь, — как сумма значений авторитетности авторити-страниц, ссылки на которые он содержит.

В алгоритме используются следующие обозначения. S — множество страниц, для которых рассчитываются веса хабов и авторити, n — количество страниц в множестве. H — подмножество S, содержащее страницы в роли хабов, и A — подмножество S со страницами в роли авторити. Поскольку любая страница может одновременно играть и роль хаба, и роль авторити, множества A и H перекрываются. Для каждой страницы j в роли хаба F(j) является количеством исходящих ссылок. Для каждой страницы i в роли авторити B(i) — количество входящих ссылок. Вектор значений авторити с размерностью n обозначается буквой a, а вектор значений хабов — h. Таким образом расчет весов хабов и авторити принимает следующий вид:

Вычисление веса страниц в HITS алгоритме

Процесс расчета производится итеративно. Изначально все веса имеют значение 1. Алгоритм начинается с перерасчета весов по формуле, указанной выше, после чего векторы нормализуются. Эта итерация повторяется до тех пор, пока векторы a и h не сойдутся.

Алгоритм HITS, к сожалению, не лишён недостатков. К примеру, сама идея взаимного влияния хабов и авторити-страниц создает следующую ситуацию. Представим себе хаб, который ссылается на несколько авторити-страниц (хаб B на рисунке ниже), и несколько хабов, указывающих на одну авторити-страницу (A). Если количество авторити-страниц, на которые указывает В, больше, чем количество хабов, ссылающихся на А, то алгоритм HITS распределит весь вес авторитетности между авторити-страницами в правой части рисунка, и назначит авторити-странице А вес практически равный нулю.

Ошибки алгоритма HITS

Причиной этого явления является то, что хаб В уже на первой итерации получит большой вес от многочисленных авторити-страниц и немедленно распределит его обратно между страницами, ссылки на которые он содержит. В тоже самое время хабы слева получат малый вес (вес одной лишь страницы А, поделенный между всеми ими) и в ответ назначат А также низкий вес, хотя очевидно, что страница А должна быть намного авторитетнее страниц справа.

Источники:

Kleinberg, J. May 1997, Authoritative sources in a hyperlinked environment. Technical Report RJ 10076, IBM,. Available at http://citeseer.ist.psu.edu/article/kleinberg98authoritative.html

 

как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы