как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы

Патент Google «Документальный поиск, основанный на временнЫх данных»

Ссылочный текст

Информация, связанная с тем, как изменяется ссылочный текст в течение времени, используется для оценки документа. Например, изменения в ссылочном тексте, связанные с ссылками на документ, указывают на то, что в сам документ были внесены изменения.

Если в контенте документа происходят изменения, такие, что он начинает значительно отличатся от ссылочного текста, связанного с обратными ссылками, то и домен, относящийся к документу, значительно или полностью изменяется. Это происходит, когда домен устаревает. Ссылочный текст часто рассматривают как часть документа, на который указывают связанные с ним ссылки. Домен может выдать в результатах поиска несвязанную с запросом ссылку, что не желательно.

Одним из решений данной проблемы является определение даты, когда домен изменил местоположение. Это можно сделать, определив дату, когда текст документа либо ссылочный текст был сильно изменен. Все ссылки и/или ссылочный текст, предшествующие этой дате, могут быть проигнорированы.

Актуальность ссылочного текста используется как один из принципов оценки документов. Она может быть определена по датам появления/изменения ссылочного текста, ссылок, связанных с ссылочным текстом, либо документа, на который указывают ссылки. Дата появления/изменения документа, на который указывают ссылки, является хорошим индикатором актуальности ссылочного текста. Это утверждение основывается на теории о том, что хороший ссылочный текст остаётся неизменным, когда модернизируется документ. Чтобы не изменять дату ссылочного текста из-за незначительных изменений части документа, изменённые разделы документа тестируются на важность внесённых изменений и только после этого дата ссылочного текста может быть изменена или нет.

Поисковая система производит (изменяет) оценку документа, по информации о том, как изменяется ссылочный текст с течением времени.

 

Трафик

Информация о трафике документа может использоваться для оценки документа. Например, поисковая система 125 прослеживает использование документа пользователями за определенный период времени. Сильное снижение трафика может означать то, что документ устарел (не модернизируется или заменён на другой).

Поисковая система 125 сравнивает среднестатистический трафик документа за последние j количество дней (где j=30) с лучшим трафиком в течение месяца, учитывая сезонные изменения, или в течение последних k дней (где k=365). Дополнительно поисковая система 125 отмечает повторяющую модель трафика или изменения модели в течение времени. Это позволяет определять периоды, когда документ пользовался большей или меньшей популярностью. Сверяя эти модели, поисковая система 125 точно оценивает документ вне зависимости от внешних факторов.

Дополнительно, поисковая система 125 рассматривает временные характеристики «рекламного трафика» определенных документов. Например, поисковая система 125 отслеживает следующие факторы:
(1) позиции рекламы, представляемой документом;
(2) качество рекламируемого товара (документ, реклама которого ссылается на известные поисковой системе документы, обладает высоким трафиком);
(3) насколько реклама повлияла на посещаемость документа.
Поисковая система использует временные характеристики рекламного трафика для оценки документа.

Поисковая система 125 оценивает документ на основании информации о временном трафике документа.

 

Поведение пользователя

Для согласованного внедрения принципов изобретения установление (или изменение) оценки документа может быть произведено на основе информации о поведении одного или множества пользователей, запрашивающих документ в течение определённого промежутка времени. Например, поисковая система 125 отмечает количество раз включения документа в результаты поиска и/или сколько времени один или более пользователей проводят на странице документа. Как минимум, по этой информации поисковая система 125 может частично оценить документ.

Выполнение запроса определенного документа требует времени, определение релевантности документа запросу займет некоторое время у пользователя. Это один из способов определить, актуален контент или нет.

Поисковая система способна оценить документ, основываясь и на поведении пользователя по отношению к документу.

 

Информация о домене

В соответствии с реализацией принципов изобретения, информация о домене связанная с документом может использоваться для оценки документа. Например, поисковая система 125 следит за информацией о том, как документ функционирует в компьютерной сети, и использует её для оценки документа.

Пользователи, пытающиеся обмануть поисковую систему, часто используют дорвеи для увеличения трафика своего сайта. Информация о законности доменов используется поисковыми системами для оценки документа.

Отличить законный домен от незаконного позволяют определённые сигналы. Например, домены обновляют в течение 10 лет. Законные (важные) домены обычно оплачиваются за несколько лет вперёд. Тогда как домены-дорвеи (незаконные) используются чуть больше года. Этот фактор может быть использован для определения законности домена, следовательно, и документа.

По записи доменного имени сервера (DNS) также можно определить, законен или нет домен. Запись DNS содержит информацию о том, кто регистрировал домен, административный и технический адреса, адреса именных серверов. Изучив эту информацию, можно определить незаконный домен. Например, поисковая система 125 отслеживает информацию о верном адресе, о том, как часто изменяется контактная информация домена и т.д. Список неточной контактной информации, именных серверов, IP адреса идентифицируется, хранится и используется для определения законности домена.

Для определения законности домена используется информация о возрасте и связанная с именным сервером. У «хорошего» именного сервера могут быть различные домены от различных регистраторов и с различной историей хостинга. У «плохого», главным образом, порнографические домены и домены-дорвеи с коммерческими словами (общепринятый спам), все домены от одного регистратора. Новизна именного сервера еще не признак незаконности домена, но в совокупности с другими факторами, описанными выше, может им быть.

Поисковая система 125 оценивает (изменяет оценку) документа по информации о законности домена, связанного с документом.

 

История ранжирования

Информация о предыдущих позициях документа используется для оценки документа. Например, поисковая система 125 отслеживает позиции документа в разный период времени, в соответствии с поступающими поисковыми запросами.

По количеству и качеству изменений позиций документа можно определить будущую оценку документа. Для каждого набора поисковых результатов, документ может быть взвешен в соответствии с его позицией в N результатах поиска. Например, для N=30 функция выглядит так: [((N+1)-SLOT)/N]. В этом случае лучший результат может быть оценён на 1.0, приближаясь к 0 для N-ого результата поиска.

Набор запросов (например, коммерческие запросы) может повторяться и документы, выбранные более чем в M% результатах поиска, могут ослабнуть или процентно возрасти; для ранжирования это сигнал к установлению ценности документа. Например, поисковая система 125 определяет, насколько высока средняя оценка лучших результатов и есть ли значительные изменения в топ-результатах от месяца к месяцу. Для коммерческих запросов вероятность спама выше, поэтому поисковая система тщательнее обрабатывает их.

В дополнении к вышесказанному, поисковая система контролирует один или несколько факторов, таких как число запросов, позицию (понижающуюся, повышающуюся), документ, выбранный как поисковый результат; сезонность, данные, использующие полосу канала лишь эпизодически, и другие характеристики выбранного документа; изменения оценки пары URL-запрос.

Поисковая система 125 следит за числом документов (например, URL), не основываясь на критерии запроса. Например, поисковая система 125 следит за средним баллом топ-результатов поиска и оценивает их релевантность. Учитывает число ссылок на определенный запрос. Заметив их увеличение, поисковая система будет оценивать данные результаты выше.

Поисковая система следит за позициями документов, выявляя внезапные улучшения позиции документов. Подобные изменения могут означать либо обычное явление, либо попытку обмануть поисковую систему, например, покупая или продавая ссылки. Поисковая система принимает необходимые меры по борьбе с попытками спама, например, используя ограничения для улучшения определенных позиций. Либо позволяет оставаться документу на определенной позиции в течение определенного времени. Для дальнейшей статистики, чтобы отличать обычный документ от спамового, поисковая система 125 полагается на упоминания о документе в новостных статьях, дискуссионных группах, тогда как (в теории) спамовые документы не упоминаются, например, в новостях. Эти методы могут быть использованы для снижения количества попыток обмануть поисковую систему.

Для документов, заслуживающих доверия, таких как правительственные, web-каталоги и документы, имевшие стабильно высокие позиции, поисковая система 125 будет делать исключения. Если у подобного документа будут замечены резкие улучшения позиции и количества ссылок, он не будет рассматриваться как спам.

Резкое снижение позиций может быть расценено поисковой системой 125 как потеря популярности данного документа. Например, документ значительно сдал свои позиции, из этого следует, что он стал менее интересен пользователям, поисковая система оценивает его уже ниже.

Поисковая система может оценивать документ, основываясь лишь на данных о ранее занимаемых им позициях.

 

Заданные/выработанные пользователем данные

Заданные/выработанные пользователем данные также являются критерием оценки документа. Например, по «закладкам», favourites можно судить о том, насколько определённый документ интересен пользователям. Поисковая система получает подобную информацию прямым (с помощью вспомогательного браузера) или косвенным (с помощью браузера) путем. Анализируя количество закладок/favourites, определяет важность документа.

Поисковая система учитывает динамику появлений документа в списках закладок или favourites пользователей. Если документ часто фигурирует в подобных списках, это говорит о его важности и наоборот. В соответствии с этим поисковая система даёт свою оценку документу.

Поисковая система 125 использует для оценки документа и другую информацию, указывающую на предпочтения пользователей. Например, данные буферных файлов или cookie-файлов.

Одним из критериев оценки для поисковой системы служат заданные/выработанные пользователем данные.

 

Уникальные слова, биграммы, фразы в ссылочном тексте

На основании уникальных слов, биграмм, фраз в ссылочном тексте осуществляется оценка соответствующего документа. Поисковая система 125 учитывает данные ссылочных диаграмм и изменения в них при оценке документа, выявлении спама и др. целей. Обычно данные реальных диаграмм объективны и отражают действительность. Искусственно созданные веб-диаграммы, обычно определяющие спам, основаны на согласованных решниях, причиной которых является высокая плотность уникальных слов, фраз, биграмм, насколько можно ожидать релевантных.

Причиной подобной плотности может стать большое количество идентичных ссылок со многих документов, иногда созданных специально. Поисковая система 125 следит за ссылками и учитывает их при оценке документа. Если поисковая система рассматривает данную ссылку как спам, пострадает оценка соответствующего документа.

Одним из критериев оценки документа для поисковой системы является информация об уникальных словах, диграфах, фразах соответствующего текста.

 

Связь независимых одноранговых узлов

Информация о независимых одноранговых узлах используется для оценки документа.

Резкое увеличение числа независимых одноранговых узлов с исходящими и входящими ссылками на документ может означать попытку спама и иметь отношение к искусственным веб-диаграммам. Необычно согласованный или несвязный ссылочный текст может усилить подозрения в спаме. Подобная информация может привести к снижению веса ссылки.

Одним из критериев оценки документа для поисковой системы 125 является информация о связи независимых одноранговых узлов.

 

Разделы документа

Для оценки документа поисковая система использует информацию о разделах документа. Например, поисковая система может провести выборку разделов (по категориальным признакам, анализу URL, анализу контента, по выделению блоков одной тематики, резюмированию, по использованию уникальных, но редко встречаемых, слов и др.). Поисковая система 125 может контролировать раздел(ы) документа за определённый промежуток времени и использовать эту информацию с целью оценки.

Значительные изменения в разделах документа могут означать, что сменился владелец документа и прежняя информация о документе (оценка, ссылочный текст) больше неверна. Исчезновение одного из разделов документа может также повлиять на оценку документа.

Одним из критериев оценки документа для поисковой системы являются изменения в одном или нескольких разделах документа.

>> 4. Примерная обработка

 

как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы