как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы

Патент Google «Документальный поиск, основанный на временнЫх данных»

Типы временных данных

Дата создания документа

При реализации принципов изобретения дата создания документа необходима при формировании показателей, относящихся к документу. Термин «дата» используется достаточно широко. Как описано выше, существует несколько приёмов для определения даты создания документа. Некоторые приёмы «нетрадиционны», в том смысле, что на них могут влиять те, кто желает улучшить показатели, относящиеся к документу. Другие приёмы являются традиционными. Любые из этих приёмов, комбинации этих приёмов, а также другие приёмы могут использоваться для определения даты создания документа.

Определение даты создания документа возможно, начиная с даты, когда поисковая система 125 впервые узнает или проиндексирует документ. Поисковая система 125 исследует документ посредством его обхождения, через представление документов поисковой системе 125 из внешних источников или посредством комбинации двух приемов. Т.е., определение даты создания документа возможно, начиная с даты, когда поисковая система 125 впервые обнаруживает ссылку на заданный документ.

В соответствии с другим подходом, дата регистрации документа под доменным именем может рассматриваться как дата создания документа. Ещё один подход определяет дату создания документа с момента появления ссылки на данный документ с другого документа, например, это может быть новая статья, группа новостей или комбинация одного или более таких документов. В соответствии с подходом, который будет рассматриваться в дальнейшем, дата, когда документ стал включать в себя необходимое количество страниц, считается датой создания документа. Существуют и другие подходы к определению даты создания документа, но здесь они рассматриваться не будут.

Поисковая система 125 использует дату создания документа для оценки документа. Например, справедливо предположить, что недавно созданный документ не может содержать достаточное количество ссылок с других документов. Оценка документа основывается на количестве ссылок с или на документ. Соответственно, документ, который создан недавно будет оценён ниже, чем документ, который содержит достаточное количество ссылок (например, обратных). Учитывая дату создания документа, оценка документа будет изменяться либо в положительном направлении, либо в отрицательном.

Приведём в пример документ, который был создан вчера и имеет десять обратных ссылок. Такой документ будет оценён поисковой системой выше, нежели документ десятилетней давности, который содержит около ста обратных ссылок. Объяснить это явление достаточно просто: темпы ссылочного роста первого документа значительно выше, нежели темпы последнего. Резкий рост количества обратных ссылок является не только фактором, которым руководствуется поисковая система 125 при оценке документов, но может служить сигналом к попытке «заспамить» поисковую систему 125. В такой ситуации поисковая система 125 понизит критерии оценки документа с целью минимизации возможности спама.

В соответствии с реализацией принципов данного изобретения, поисковая система 125 использует дату создания документа для определения правил, которые действуют в документах при создании ссылок. Эти правила в дальнейшем используются для оценки документа, например, больший «вес» получают те документы, на которые ссылки ставятся наиболее часто.

При одном из подходов поисковая система 125 изменяет оценку документа на основе ссылок следующим образом:

H=L/log(F+2)

где Н — оценка временной заданности ссылки; L — оценка ссылки, присвоенной документу, которая может быть выявлена при использовании любых известных приемов оценки ссылок (например, прием оценки ссылки, описанный в американском патенте № 6,285,999); F — время, истекшее с момента создания документа (или какой-то промежуток времени).

По некоторым запросам, более старые документы предпочтительнее новых. В результате, имеет смысл оценивать документы основываясь на времени их создания. Другими словами, поисковая система 125 определяет возраст документов при выдаче результатов (например, учитывая дату создания документа), определяет средний возраст документов, изменяет оценку документа (положительно или отрицательно) на основе разницы между возрастом определённого документа и средним возрастом документов.

В итоге, поисковая система 125, по крайней мере, частично оценивает документ, основываясь на информации, относящейся к дате создания документа.

 

Обновление контента

В соответствии с реализацией принципов данного изобретения, информация, относящаяся к способу изменения контента документа с течением времени используется для изменения оценки данного документа. Например, документ, контент которого неоднократно редактировался, будет оцениваться по-другому, нежели документ, который оставался неизменен в течение длительного периода времени. Документ, содержащий большой объём изменяющегося со временем контента, будет оцениваться по-другому, нежели документ, содержащий маленький объём изменяющегося со временем контента.

В соответствии с одним из подходов, поисковая система 125 оценивает обновленный контент следующим образом:

U=f (UF, UA)

где f — функция, например, от суммы или взвешенной суммы; UF — оценка частоты, которая показывает, как часто документ (или страница) обновляется, UA — количественная оценка, которая показывает, насколько значительно документ (или страница) был изменён в течение времени. UF определяется несколькими способами с учётом среднего времени между обновлениями, количества обновлений за определенный период времени и т.д.

UA определяется как влияние одного или более факторов, например, количества «новых» или уникальных страниц, относящихся к документу в течение определенного периода времени. Ещё один фактор включает отношение количества новых или уникальных страниц, относящихся к документу в течение определённого периода времени, к общему количеству страниц, относящихся к документу. Другой фактор учитывает, сколько раз документ (или страница) изменялся в течение определённого периода времени (например, в течение последних дней).

В соответствии с традиционным подходом, UA может быть определён как функция, вычисляемая в зависимости от различий веса частей контента документа. Например, контент на первый взгляд не представляет никакого интереса после произошедшего обновления. Это могут быть комментарии, реклама, навигационные элементы, газетные материалы. С другой стороны, контент может представлять большой интерес после обновления, например, заголовок или ссылочный текст могут получить больший вес, чем остальной контент.

UF и UA оказывают влияние на оценку документа. Например, уровень изменений за текущий период времени сравнивается с уровнем изменений за другой период времени с целью определения различных тенденций. Документы, в которых наблюдаются значительные изменения, оцениваются выше, чем документы, которые более стабильны. Количество изменений оказывает влияние на оценку. Например, документы, которые подвержены значительным изменениям, превышающим пороговый уровень, оцениваются выше, чем документы, где изменения стабильны и не превышают порогового уровня.

Иногда ресурсов хранения информации оказывается недостаточно для хранения документов для контроля с целью обнаружения изменений контента. В этом случае поисковая система 125 сохраняет формулировку документов и контролирует эти формулировки на предмет изменений. Например, поисковая система 125 сохраняет «подписи» документов вместо самих документов с целью отслеживания изменений контента документа. В этом случае поисковая система 125 сохраняет вектор терминов для документа (страницы) и наблюдает за происходящими изменениями. В соответствии с другим подходом, поисковая система 125 сохраняет и отслеживает относительно небольшие части документа, которые являются важными или наиболее часто встречаются (за исключением стоп-слов).

В соответствии с ещё одним подходом, поисковая система 125 сохраняет краткое содержание документа и следит за изменением информации. В соответствии с дальнейшим подходом, поисковая система 125 формирует похожую «ненужную» информацию (которая используется для отслеживания дубликатов документа), относящуюся к документу, и следит за изменениями. Изменения такой «ненужной» информации могут соответствовать крупным изменениям самого документа. При использовании других подходов прибегают к разнообразным приемам отслеживания изменений в документе. При наличии ресурсов хранения информации, документы хранятся полностью и используются для определения изменений.

По некоторым запросам документы, контент которых не был изменён являются более предпочтительными, чем документы, контент которых был изменён недавно. В результате, более выгодно оценивать документ, основываясь на времени произошедших изменений. Другими словами, поисковая система 125 определяет дату, когда контент каждого документа, находящегося в результатах поиска, был изменён в последний раз, определяет среднюю дату изменений документа и модифицирует оценку документа (отрицательно или положительно) на основе разницы между датой изменения документа и средней датой.

В заключение, поисковая система 125 устанавливает (или изменяет) оценку документа на основе временных данных. Для очень объёмных документов, которые включают контент, принадлежащий нескольким лицам или организациям, оценка соответствует каждому суб-документу.

 

Анализ запросов

В соответствии с реализацией принципов данного изобретения, один или более факторов касающихся запроса используются для установления (или изменения) оценки документа. Например, один фактор касающийся запроса связан с частотой выборки документа в течение времени, когда документ включён в результаты поиска. В этом случае, поисковая система 125 должна оценивать документы, которые выбирают пользователи, выше, чем остальные документы.

Другой фактор касающийся запроса связан с частотой появления определённого поискового термина в запросах. Определённый набор поисковых терминов увеличивается в запросах с течением времени. Например, запросы, относящиеся к «горячим» темам, которые набирают популярность в течение определённого промежутка времени, возможно, будут появляться чаще. В этом случае, поисковая система 125 оценивает документы, относящиеся к этим поисковым запросам, выше, чем документы, которые к этим запросам не относятся.

Ещё один фактор касающийся запроса относится к изменениям с течением времени в результатах поиска по похожим запросам. Значительное увеличение результатов поиска по похожим запросам должно указывать на наличие «горячей» темы или свежих новостей и провоцировать поисковую систему 125 увеличивать оценку документов, относящихся к данным запросам.

Ещё один фактор касающийся запроса относится к запросам, которые остаются относительно постоянными с течением времени, но приводят к результатам, которые периодически изменяются. Например, запрос «мировой чемпион» относится к таким запросам. Запрос остаётся неизменным, а результаты с течением времени постоянно меняются. Подобные изменения отслеживаются и, соответственно, используются для оценки документа.

Ещё один фактор касающийся запроса относится к устаревшим документам, которые выдаются в результатах поиска. «Несвежесть» документа устанавливается по таким факторам, как дата создания документа, ссылочный рост, трафик, изменения контента, увеличение прямых/обратных ссылок и т.д. Поисковая система 125 узнаёт, какие запросы являются наиболее важными, анализируя наиболее востребованные документы в результатах поиска. Особенно поисковая система 125 обращает внимание, насколько предпочтительнее являются документы, в которых произошли изменения и которые занимают более низкую позицию, по сравнению с устаревшими документами. Более того, если в течение времени определенный документ удовлетворяет популярным запросам, (например, «Мировой чемпион») и существуют специфические запросы (например, «янки в Нью-Йорке»), то фактор, касающийся запроса, будет уменьшать ценность документа, который является более устаревшим.

Иногда устаревший документ предпочтительнее, чем относительно новые документы. В результате, поисковая система 125 учитывает частоту, с которой избирается документ в течение времени, устанавливая ценность документа. Например, если по определенному запросу пользователи предпочитают выбирать устаревшие документы, которые занимают невысокие позиции, то поисковая система 125 будет оценивать такой устаревший документ.

Ещё один фактор касающийся запроса учитывает частоту, с которой документ появляется в результатах поиска по различным запросам. Например, если определённый документ постоянно появляется в результатах выдачи, абсолютно не соответствуя запросу, то поисковая система 125 посчитает такой документ спамом и оценит его очень низко.

В итоге, поисковая система 125 изменяет оценку документа, основываясь, по крайней мере, частично, на одном или более факторов, касающихся запросов.

 

Ссылочный критерий

В соответствии с реализацией принципов изобретения, один или более ссылочных факторов используются для изменения оценки документа. В соответствии с одним подходом, ссылочные факторы относятся к дате появления новых ссылок на документ и к исчезновению существующих ссылок. Дата появления ссылки рассматривается как дата, начиная с которой поисковая система 125 находит ссылку (например, дата, когда была обнаружена ссылка на документ или дата, когда она была в последний раз обновлена). Дата исчезновения ссылки является первой датой, когда документ, содержащий ссылку, может её потерять или исчезнуть сам.

Такие даты определяются поисковой системой 125 во время процесса обхождения или индексирования. Используя в качестве такой даты адресную ссылку, поисковая система 125 отслеживает поведение ссылок, например, когда ссылки появились и когда исчезли, частотность, с которой ссылки появляются и исчезают, количество появляющихся и исчезающих ссылок за определённый промежуток времени, поиск тенденции появления новых ссылок и исчезновения старых и т.д.

С учётом поведения ссылок, поисковая система 125 оценивает документ. Например, тенденция к уменьшению количества новых ссылок (основанная на сравнении количества новых ссылок в предыдущий и текущий периоды) в течение времени подскажет поисковой системе 125, что документ является «устаревшим». В этом случае, поисковая система 125 понизит оценку документа. И наоборот, тенденция к росту подскажет поисковой системе 125, что документ «свежий» (например, контент документа был недавно создан или обновлен). В зависимости от ситуации и подхода, такой документ считается более релевантным.

Анализируя поведение ссылок (увеличение/уменьшение обратных ссылок на документ) в течение определенного времени, поисковая система 125 извлекает ценную информацию по поводу того, насколько документ является «свежим». Например, если подобный анализ свидетельствует об отсутствии обновлений в течение длительного периода времени, уменьшении значимости документа, то такой документ расценивается как устаревший.

В соответствии с одним из подходов, анализ зависит от количества новых ссылок на документ. Например, поисковая система 125 отслеживает количество новых ссылок на документ за последние n дней и сравнивает с количеством ссылок с момента появления документа. И наоборот, поисковая система 125 определяет возраст старых ссылок и сравнивает их с самой первой ссылкой на документ.

Для иллюстрации рассмотрим у=10 и два документа (в данном случае — веб-сайты), которые были найдены 100 дней назад. 10% ссылок на первый сайт было найдено ранее, чем 10 дней назад, в то время как, на второй сайт за то же время было найдено 0% ссылок. Они все были найдены раньше. В этом случае метрический показатель для сайта А — 0,1, а для сайта В — 0. Метрические данные могут получить другой вид, если подвергнуть детальному анализу размещение ссылочных дат. Например, создать модули, определяющие зависимость типа сайта от того, как расставлены ссылки (сайт, более не обновляемый, популярный, непопулярный или заменённый сайт).

По другим расчётам, анализ может зависеть от веса ссылок. В данном случае найти вес ссылки поможет её функция, важность которой зависит от актуальности ссылки. Актуальность ссылки определяется по дате появления/изменения ссылки, основного текста, связанного с ссылкой, либо документа, содержащего ссылки. Дата появления/изменения документа, содержащего ссылки, является лучшим показателем актуальности ссылки.

Данное утверждение основано на теории о том, что хорошие ссылки остаются неизменными даже при изменении контекста. Чтобы не менять даты всех ссылок вслед за незначительными изменениями документа, определяется важность внесенных изменений (изменения в большом разделе документа или в нескольких небольших разделах). И в соответствии с этим меняют или не меняют даты ссылок.

Определять вес ссылок можно по-разному. Например, на основе важности документа, содержащего ссылки (правительственным документам присваивается высокая важность); надёжности документа, содержащего ссылки (надёжность документа определяется в соответствии с Патентом США № 6.285.999); даты документа, содержащего ссылки, используя дополнительные способы определения даты (часто изменяемый документ внезапно теряет ссылку, например Yahoo home page).

Поисковая система 125 может высоко или низко оценить документ, в котором есть ссылки, выполняющие функцию суммы веса ссылок, указывающих на этот документ. Этот способ может применяться рекурсивно (т.е. в обратном порядке). Например, предположим, что документу S 2 года. Документ S можно считать актуальным, если n% ссылок на нем актуальны или документ, содержащий прямые ссылки на S, является актуальным. Последнее можно определить по дате создания документа.

В соответствии с другим способом, анализ может зависеть от срока давности размещения ссылок, указывающих на документ. Т.е. даты создания ссылок можно определить и применить для нахождения даты размещения. Можно предположить, что даты устаревшего и актуального документа будут сильно отличаться друг от друга. Поисковая система 125 сможет оценить документ лишь по дате размещения ссылок.

По дате появления ссылок можно выявить «спам», документ с большим количеством ссылок для привлечения большего внимания поисковой системы. Обычный, «законный» документ привлекает обратные ссылки медленно. Много обратных ссылок может сигнализировать о возникновении нового сайта (например, CDC веб-сайт на первом этапе своего существования может создавать много ссылок) или о попытках спама в поисковых системах (преследуя более высокую позицию в результатах поиска), обмениваясь ссылками, покупая их или получая их с документов, не имеющих право делать ссылки. Примерами таких документов являются гостевые книги, форумы, страницы «для всех», позволяющие любому добавить ссылку на документ.

В соответствии со следующим способом, анализ может зависеть от даты исчезновения ссылки. Исчезновение большинства ссылок может означать, что документ, на который они указывают, устарел (больше не модернизируется или заменён другим документом). Например, поисковая система 125 может отслеживать дату исчезновения или уменьшения ссылок на документ в специальном временном окне. Поисковая система 125 может перестать учитывать ссылки с устаревшего документа.

В данном способе анализ зависит не только от возраста ссылок на документ, но и от динамики их проставления. Например, поисковая система 125 может по-разному определить вес документа, где каждый день разные ссылки, несмотря на их актуальность (например, ниже) и документа, который постоянно обновляется и ссылается на данный целевой документ. В данном случае, поисковая система 125 может оценить документ основываясь на оценке документов с ссылками на все документы, данные о которых есть во временном окне.

Поисковая система 125 может производить (изменять) оценку документа по одному или более имеющимся ссылочным факторам.

>> 3.4.5 Ссылочный текст

 

как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы