как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы

Словарь поисковых терминов

Источники: Яндекс и др.

видео витрина | Изготовим печать в Москве за 1 день, срочное изготовление сургучных печатей

асессор (assesor, эксперт) — специалист в предметной области, выносящий заключение о релевантности документа, найденного поисковой системой

бан (ban, запрет) — удаление ресурса из базы поисковой системы за применение поискового спама

булевская модель (boolean, булева, булевая, двоичная) — модель поиска, опирающаяся на операции пересечения, объединения и вычитания множеств

векторная модель — модель информационного поиска, рассматривающая документы и запросы как векторы в пространстве слов, а релевантность как расстояние между ними

вероятностная модель — модель информационного поиска, рассматривающая релевантность как вероятность соответствия данного документа запросу на основании вероятностей соответствия слов данного документа идеальному ответу

ВИЦ — взвешенный индекс цитирования (2) Яндекса, учитывающий число страниц, ссылающихся на сайт, и собственный ВИЦ этих страниц. Расчитывается для каждой страницы в базе Яндекса и является одним из факторов ранжирования

внетекстовые критерии (off-page, вне-страничные) — критерии ранжирования документов в поисковых системах, учитыващие факторы, не содержащиеся в тексте самого документа и не извлекаемые оттуда никаким образом

входные страницы (doorways, hallways, дорвеи) — страницы, созданные для искусственного повышения ранга в поисковых системах (поискового спама). При попадании на них пользователя перенаправляют на целевую страницу

дизамбигуация (tagging, part of speech disambiguation, таггинг) — выбор одного из нескольких омонимов c помощью контекста; в английском языке часто сводится к автоматическому назначению грамматической категории «часть речи»

дубликаты (duplicates) — разные документы с идентичным, с точки зрения пользователя, содержанием; приблизительные дубликаты (near duplicates, почти-дубликаты), в отличие от точных дубликатов, содержат незначительные отличия

иллюзия свежести — эффект кажущейся свежести, достигаемый поисковыми системами в интернете за счет более регулярного обхода тех документов, которые чаще находятся пользователями

инвертированный файл (inverted file, инверсный файл, инвертированный индекс, инвертированный список) — индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось

индекс (index, указатель) — см. индексирование

индекс цитирования (citation index) — 1) число упоминаний (цитирований) научной статьи, в традиционной библиографической науке рассчитывается за промежуток времени, например, за год; 2) ИЦ — количество доменов ссылающихся на сайт, используется Яндексом

индексирование (indexing, индексация) — процесс составления или приписывания указателя (индекса) — служебной структуры данных, необходимой для последующего поиска

информационный поиск (Information Retrieval, IR) — поиск неструктурированной информации, единицой представления которой является документ произвольных форматов. Предметом поиска выступает информационная потребность пользователя, неформально выраженная в поисковом запросе. И критерий поиска, и его результаты недетермированы. Этими признаками информационный поиск отличается от «поиска данных», который оперирует набором формально заданных предикатов, имеет дело со структурированной информацией и чей результат всегда детерминирован. Теория информационного поиска изучает все составляющие процесса поиска, а именно, предварительную обработку текста (индексирование), обработку и исполнение запроса, ранжирование, пользовательский интерфейс и обратную связь.

клоакинг (cloaking, маскировка) — техника поискового спама, состоящая в распознании авторами документов робота (индексирующего агента) поисковой системы и генерации для него специального содержания, принципиально отличающегося от содержания, выдаваемого пользователю

контрастность термина — см. различительная сила

латентно-семантическое индексирование — запатентованный алгоритм поиска по смыслу, идентичный факторному анализу. Основан на сингулярном разложении матрицы связи слов с документами

лемматизация (lemmatization, нормализация) — приведение формы слова к словарному виду, то есть лемме

накрутка поисковых систем — см. спам поисковых систем

непотизм — вид спама поисковых систем, установка авторами документов взаимных ссылок с единственной целью поднять свой ранг в результатах поиска

обратная встречаемость в документах (inverted document frequency, IDF, обратная частота в документах, обратная документная частота) — показатель поисковой ценности слова (его различительной силы); «обратная» говорят, потому что при вычислении этого показателя в знаменателе дроби обычно стоит число документов, содержащих данное слово

обратная связь — отклик пользователей на результат поиска, их суждения о релевантности найденных документов, зафиксированные поисковой системой и использующиеся, например, для итеративной модификации запроса. Следует отличать от псевдо-обратной связи — техники модификации запроса, в которой несколько первых найденных документов автоматически считаются релевантными.

омонимия — см. полисемия

основа — часть слова, общая для набора его словообразовательных и словоизменительных (чаще) форм

поиск по смыслу — алгоритм информационного поиска, способный находить документы, не содержащие слов запроса

поиск похожих документов (similar document search) — задача информационного поиска, в которой в качестве запроса выступает сам документ и необходимо найти документы, максимально напоминающие данный

поисковая оптимизация (SEO, СЕО, продвижение сайта, раскрутка сайта, оптимизация сайта) — действия по изменению сайта и его окружения с целью получения высоких мест в результатах поиска по заданным запросам

поисковый робот (bot, бот, паук, краулер) — программа предназначенная для обхода интернет-документов с целью пополнения и обновления базы поисковой системы

поисковая система (search engine, SE, информационно-поисковая система, ИПС, поисковая машина, машина поиска, «поисковик», «искалка») — программа, предназначенная для поиска информации, обычно текстовых документов

поисковое предписание (query, запрос) — обычно строчка текста

полисемия (polysemy, homography, многозначность, омография, омонимия) — наличие нескольких значений у одного и того же слова

полнота (recall, охват) — доля релевантного материала, заключенного в ответе поисковой системы, по отношению ко всему релевантному материалу в коллекции

почти-дубликаты (near-duplicates, приблизительные дубликаты) — см. дубликаты

прюнинг (pruning) — отсечение заведомо нерелевантных документов при поиске с целью ускорения выполнения запроса

прямой поиск — поиск непосредственно по тексту документов, без предварительной обработки (без индексирования)

псевдо-обратная связь — см. обратная связь

различительная сила слова (term specificity, term discriminating power, контрастность, различительная сила) — степень ширины или узости слова. Слишком широкие термины в поиске приносят слишком много информации, при этом существенная часть ее бесполезна. Слишком узкие термины помогают найти слишком мало документов, хотя и более точных.

ранжирование — выбор документов из базы поисковой машины и упорядочение их по степени убывания релевантности

результат поиска (SERP, search engine result page, СЕРП, выдача) — страница выдаваемая поисковой системой в качестве ответа на поисковый запрос и содержащая набор ссылок на релевантные запросу документы

регулярное выражение (regualr expression, pattern, «шаблон», реже «трафарет», «маска») — способ записи поискового предписания, позволяющий определять пожелания к искомому слову, его возможные написания, ошибки и т.д. В широком смысле — язык, позволяющий задавать запросы неограниченной сложности.

релевантность (relevance, relevancy) — соответствие документа запросу

сендбокс (sandbox, песочница, «песок») — фильтр поисковой системы Гугл, накладываемый на новые сайты при ранжировании результатов поиска; искусственно понижает релевантность новых сайтов и применяется с целью подавления поискового спама

сигнатура (signature, подпись) — множество хеш-значений слов некоторого блока текста. При поиске по методу сигнатур все сигнатуры всех блоков коллекции просматриваются последовательно в поисках совпадений с хеш-значениями слов запроса.

словоизменение (inflection) — образование формы определенного грамматического значения, обычно обязательного в данном грамматическом контексте, принадлежащей к фиксированному набору форм (парадигме), характерного для слов данного типа. В отличие от словообразования никогда не приводит к смене типа и порождает предсказуемое значение. Словоизменение имен называют склонением (declension), а глаголов — спряжением (conjugation).

словообразование (derivation) — образование слова или основы из другого слова или основы. Чаще приводит к смене типа и к образованию слов, имеющих идеосинкразическое значение.

смыслоразличительный — см. различительная сила

спам поисковых систем (spam, спамдексинг, накрутка поисковых систем) — попытка воздействовать на результат информационного поиска со стороны авторов документов, приводящая к ухудшению релевантности поиска

ссылочная популярность (link popularity) — общее название технологий, позволяющих при расчёте релевантности документа учитывать его авторитетность — наличие в сети ссылок на документ и текст этих ссылок. См. PageRank, ВИЦ.

стемминг — поцесс выделения основы слова

стоп-слова (stop-words) — союзы, предлоги и другие частотные слова, которые данная поисковая система исключила из процесса индексирования и поиска для повышения своей производительности и/или точности поиска

суффиксные деревья суффиксные массивы (suffix trees, suffix arrays, PAT-arrays) — индекс, основанный на представлении всех значимых суффиксов текста в структуре данных, известной как «бор» (trie). Суффиксом в этом индексе называю любую «подстроку», начинающуюся с некоторой позиции текста (текст рассматривается как одна непрерывная строка) и продолжающуюся до его конца. В реальных приложениях длина суффиксов ограничена, а индексируются только значимые позиции — например, начала слов. Этот индекс позволяет выполнять более сложные запросы, чем индекс, построенный на инвертированных файлах.

тВИЦ — тематический ВИЦ, расчитанный с учётом тематики ссылающихся сайтов

токенизация (tokenization, lexical analysis, графематический анализ, лексический анализ) — выделение в тексте слов, чисел, и иных токенов, в том числе, например, нахождение границ предложений

точность (precision) — доля релевантного материала в ответе поисковой системы

хеш-значение (hash-value) — значение хеш-функции (hash-function), преобразующей данные произвольной длины (обычно, строчку) в число фиксированного порядка

частота (слова) в документах (document frequency, встречаемость в документах, документная частота) — число документов в коллекции, содержащих данное слово

частота термина (term frequency, TF) — частота употреблений слова в документе

шингл (shingle) — хеш-значение непрерывной последовательности слов текста фиксированной длины

PageRank (пейджрэнк) — алгоритм расчета статической (глобальной) популярности страницы в интернете, назван в честь одного из авторов — Лоуренса Пейджа. Соответствует вероятности попадания пользователя на страницу в модели случайного блуждания.

TF*IDF — численная мера соответствия слова и документа в векторной модели; тем больше, чем относительно чаще слово встретилось в документе и относительно реже в коллекции

TrustRank (трастрэнк) — алгоритм определения степени «доверия» к ресурсу для отделения качественных ресурсов от спама; основан на предположении «хорошие сайты редко ссылаются на плохие»

 

как продавать трафик | полезные скрипты | технические вопросы

вопросы хостинга | продвижение сайтов | поисковые системы