как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы

Правила индексирования BigDaddy

Источник: Jim Hedger, 2006
Перевод: Seva

Где-то в январе-феврале нынешнего года, некоторые вебмастера начали замечать, что Google странным образом «терял» значительные части их вебсайтов. Ссылки на сайты, в основном, на заглавные страницы и будто случайным образом отобранные внутренние страницы, выдавались в листингах Google. Однако страницы, которые раньше обеспечивали большое количество трафика, как будто канули в Лету. За февралем пришёл март, а на форумах и блогах появлялось всё большее количество постингов от расстроенных вебмастеров, которые отмечали значительное уменьшение количества страниц сайтов в индексе Google.

Как и после большинства крупных апдейтов, расследование ситуации привело к возникновению ещё большего количества вопросов.

Матт Катс, который следит за качеством поиска в Google, и по совместительству является самым общительным специалистом компании, ответил на многие из вопросов в открытом и широком обсуждении под названием «Распорядок индексирования» (Indexing Timeline).

В его ответе описывается, как персонал Google внимательно изучил и проникся запросами и жалобами вебмастеров, возникшими после апдейта BigDaddy. По ходу были затронуты ещё несколько вопросов: страницы сайтов, исчезнувшие из результатов поиска; качество как входящих, так и исходящих ссылок; нерелевантные схемы взаимных ссылок; а также дублированный текст при вертикальных связях и в партнерских сайтах.

13 марта Googleguy в постинге на WebmasterWorld попросил вебмастеров предоставить пробные сайты для публичного анализа со стороны Google. Комментируя сайты, предоставленные для исследования, Катс пишет: «После того, как я посмотрел на предоставленные сайты, я могу прояснить ситуацию. Сайты, которые попали под критерии «без страниц после Bigdaddy», относятся к определенному типу. Наши алгоритмы имеют крайне низкую степень доверия ко входящим или исходящим ссылкам подобных сайтов. Причиной этого могут стать чрезмерное количество взаимных ссылок, залинковка на спамовые ресурсы в сети, или покупка/продажа ссылок. Апдейт Bigdaddy действует независимо от наших дополнительных результатов. Поэтому если Bigdaddy не выбрал страниц на сайте, это даёт возможность сайту получить больше дополнительных результатов.»

Эта цитата проясняет многое, при этом становится понятнее и поведение Google после Bigdaddy.

Алгоритмы ранжирования Google основаны на доверии. Для несведущего это может показаться наивным, но не стоит забывать, что речь идёт об одной из самых информированных электронных структур, которая когда-либо существовала. Кроме того, Google аккумулирует данные по каждой записи в своем индексе. Да, его мнение складывается на основе доверия, однако информационная база для формирования этого мнения крайне велика.

Чтобы постоянно оставаться в курсе всех дел, Google собирает всё, что возможно, и сортирует данные позже. Поисковик поддерживает большое количество индексов, включая так называемый дополнительный индекс.

Дополнительный индекс хранит значительно более подробное представление документов, найденных в Сети, чем то, которое включается в основной индекс Google.

«Мы можем предъявлять к сайтам менее жесткие требования при кроулинге для этого дополнительного индекса, в сравнении с кроулингом для нашего основного индекса. К примеру, сайт может быть исключен из кроулинга для нашего основного индекса, на основании определенных параметров в URL. Однако он может быть включен в наш дополнительный индекс». (Источник: Google Help Center.)

Многие результаты, которые как-будто просто исчезли после апдейта, с большой вероятностью брались ранее из дополнительного индекса. «Дополнительный результат ничем не отличается от обычного за исключением того, что он берется из дополнительного индекса.»

Согласно цитате Катса, результаты Bigdaddy отличны от дополнительных результатов. Если Google находит данные о сайте в основных (Bigdaddy) результатах, то обращение к дополнительным результатам будет происходить с меньшей частотой, чем это происходило ранее.

 

Качество, входящее качество и исходящее качество

Google поднаторел в оценке контента, найденного в документе и на сайте. Контент включает в себя текст, изображения, заголовки, тэги, а также входящие и исходящие ссылки. Везде и всюду говорится о том, что добротно сделанные сайты, предлагающие качественную информацию и помогающие посетителям в решении их задач, будут высоко котироваться в поисковых индексах. Google подтверждает это, через свой Google Help Center, а также устами своих трибунов – Катса и Googleguy.

По мере того, как Google всё лучше и лучше определял источник и историю возникновения контента, хранящегося в его многочисленных индексах, он начал пытаться отсекать дублирующиеся части контента сайта. Цель — оставить в листинге сайты, которые больше всего заслуживают доверия при запросах пользователей в основном индексе.

С годами реплицированного контента становилось все больше, поэтому Google (и другие поисковики) весьма преуспел в распознавании совпадений с проиндексированным ранее или дублированным контентом. Google способен анализировать текст (включая отдельные параграфы), изображения и сети ссылок (как входящих, так и исходящих), зорко высматривая малейшие признаки дублирования.

К примеру, если Google заподозрит, что сайт предлагает информацию о товаре, полученную из базы данных, которой воспользовались ещё 25 000 других сайтов, — такой сайт вряд ли получит высокий ранкинг. Если будут обнаружены сети из взаимных ссылок, повторяющиеся на нескольких страницах индекса Google, мало вероятно, что подобным документам будет присвоена высокая степень доверия.

 

Стратегии взаимной залинковки

«По мере усовершенствования нашего индекса, мы улучшали методы оценки случаев со взаимными ссылками и с покупкой/продажей ссылок».

Хотя Катс указывает на взаимные ссылки как на индикатор, который сигнализирует Google о возможных проблемах с доверием к сайту, это отнюдь не означает, что все взаимные ссылки будут служить для вебмастеров источником проблем. При выборе стратегий залинковки нужно руководствоваться здравым смыслом и направлять усилия на предоставление пользователям качественного материала.

Например, если профессиональный садовник предлагает ссылки на теплицы в своем регионе, а эти теплицы, в свою очередь, ссылаются на садовника, то Google скорее всего будет считать подобные ссылки качественными. Существует прямая связь между двумя источниками информации. Сеть ссылок между местными садовыми хозяйствами, теплицами, сельскохозяйственными институтами, некоммерческими добровольными организациями и пр., расположенная на релевантных сайтах, тоже, скорее всего, будет оценена положительно и не подвергнется дополнительному наказанию.

Но если сеть состоит из явно купленных ссылок, и в нее входят все желающие обмениваться линками, без учета релевантности или полезности для посетителей, то, скорее всего, сайты-участники сети попадут под воздействие фильтров Bigdaddy/Jagger. В качестве примера Катс приводит простую ошибку, допущенную сайтом по торговле недвижимостью. Наряду с несколькими внутренними ссылками на экзотические особняки, которые отображались в нижней части страниц сайта, Катс обнаружил несколько исходящих ссылок, анкор-текст которых гласил: 1-exersize-equiptment.com, Credit Cards, Quit Smoking Forum, Hair Care, and GoSearchFor.com.

После перезагрузки страницы, появился похожий набор ссылок, однако на этот раз исходящие ссылки предлагали услуги ипотечных фирм, кредитные карты или оборудование для фитнеса. Катс прокомментировал ситуацию так: «… если вы увлекаетесь трейдингом взаимными ссылками, то не удивляйтесь тому, что у нынешнего кроулера другие приоритеты и он не посещает ваш сайт так же часто, как раньше».

 

Реферальные тексты и контент

Катс довольно подробно рассмотрел вопрос о реферальных текстах, в качестве примера упомянув сайт, посвященный футболкам, у которого ранее индексировалось более 100 страниц, а теперь в индексе значится только 5.

«Владелец сайта утверждает, что каждая страница имеет оригинальный контент, однако любая ссылка, на которую я кликал, была реферальной и вела на сайт, торгующий футболками. Я взял наугад кусок текста, и он тоже оказался взятым с сайта, торгующего футболками. На рассматриваемом сайте есть блог, что само по себе хорошо. Обычно я рекомендую блоги в качестве неплохого способа для получения ссылок. Однако в данном блоге, каждая ссылка была реферальной, а первые несколько постингов вообще не содержали обычного текста. Когда я нашел постинг с текстом, то оказалось, что он был скопирован с другого ресурса. Так что не думаю, что в значительном уменьшении индексируемых страниц этого домена виновен Google. Резонный вопрос — зачем нужно посещать ваш «любимый» сайт, если можно напрямую пойти на сайт, торгующий футболками?»

 

Призраки прошлого

Мы живём в настоящем времени. На наших сайтах присутствует как прошлое, так и настоящее. Google отслеживает все документы в своем индексе, и даже если он «...получил контент, который только что появился в Сети, у него есть громадные ресурсы памяти и компьютерные мощности для того, чтобы составить из отдельных деталей полную картину происходящего».

Google осуществляет свою работу, следуя по ссылкам. Google ранжирует документы, определяя качество контента, найденного на сайте, а также на сайтах, которые ссылаются на документ, или на которые ведут ссылки. Если вы заметили, что значительная часть контента выпала из индекса Google, или если вы просто интересуетесь вопросами организации работы Google, тогда вам полезно будет ознакомиться с материалом Катса «Bigdaddy: порядок индексирования»

 

как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы