как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы

Проблемы в использовании поисковых систем интернета как лингвистического ресурса

Источник: Optimization.Ru

13 октября в рамках семинара «Информационные технологии в исследованиях российских филологов» Илья Сегалович читал доклад «Проблемы в использовании поисковых систем интернета как лингвистического ресурса». Встреча проходила в Институте мировой литературы им. А.М. Горького РАН.

Не смотря на то, что доклад предназначался для лингвистов, его было крайне интересно слушать даже тем, кто не понимал некоторые термины. Илья рассказывал увлечённо, с примерами, и также подробно отвечал на вопросы слушателей.

По словам Ильи Сегаловича, веб-корпус является бесценным источником данных для лингвистов. На его основе можно строить и проверять различные модели, извлекать знания и статистические данные, проводить сравнительные изучения (например, различия языка в регионах).

Для самих поисковых систем веб-корпус тоже необходим — для измерения качества индекса и для сравнения с другими поисковиками.

Что можно считать? Можно считать словоупотребления, сайты или страницы. Илья Сегалович поделился такими цифрами: средний размер документа в базе Янедкса 600-700 слов, а среднее самое частотное слово — 20-30.

Считать сайты — дело не благодарное. Поисковики не заточены для лингвистов. У некоторых поисковиков наблюдается иллюзия того, что в выдаче мы не получим несколько найденных позиций с одного и того же сайта. Примеров, когда на второй и далее страницах результатов поиска встречаются найденные документы с сайта, который мы уже видели на первой странице, множество. К тому же у поисковиков нет согласия, что же считать сайтом. А для лингвистов удобнее применять к сайтам основную характеристику — у сайта есть один владелец.

Лучше всего считать страницы, в этом случае всё более ясно: страница — единица информации в индексе поисковика. Но и здесь есть проблемы. Почти все поисковики часто сознательно не выдают часть результатов: в частности, не показывают похожие друг на друга результаты или не показывают заведомо малорелевантные результаты. Такой эффект «экономного» поиска называют эшелонированием. С этим эффектом также можно связать необычные перепады в статистике поиска очень частотных слов, которые наблюдались в некоторых поисковых системах.

По поводу нестабильности результатов выдачи поисковиков Илья Сегалович рекомендовал прочитать работу «On the Instability of Web Search Engines» (Erik Selberg Oren Etzioni), в которой есть результаты эксперимента по сравнению выдачи 9 поисковых машин утром и вечером: результаты отличались от 19,84% до 30,77%. Всем лингвистам Илья посоветовал не верить слишком большим числам и проводить изучение статистики результатов ночью и не делать больших перерывов (больше двух недель) между несколькими измерениями.

Кроме того, важно знать язык запросов поисковых машин, который несколько отличается в каждой реализации. А также знать параметры, которые отключают фильтрацию документов по одинаковым сниппетам. Для Google это параметр filter=0, для Яндекса rd=0, для Рамблера noglue=1, для Yahoo dups=1.

Также Илья Сегалович рассказал про два оператора Яндекса. Оператор языка запросов date позволяет искать в Яндекс.Новостях или в Поиске по блогам с ограничением по дате, например, запрос date='200609*' возвращает в результате все новости сентября 2006 года. Параметр, позволяющий не склеивать результаты в сайты pag=u (это аналог типа группировки flat в XML-поиске на xml.yandex.ru).

В конце своего доклада Илья Сегалович подвел итог:

 

как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы