Що таке релевантність
При введенні запиту на сторінці пошукової системи або в пошуковому рядку (у верхній частині екрану) браузера починають відбуватися події, приховані від простих користувачів. Яким же чином у величезній Всесвітній павутині знаходиться потрібна інформація, і що таке релевантність пошуку? Саме слово походить від латинського «relevo» і перекладається на російську мову, як «піднімати» або «полегшувати». Англомовний еквівалент терміна - «relevance». У пункті 3.5.1 ГОСТ 7.73-96 розшифровується дане поняття, а «релевантність» і «релевантний» мають однакове визначення, яке полягає у відповідності отриманої інформації зробленому користувачем інформаційним запитом.
Цей державний стандарт містить і інші корисні стандартизовані терміни та визначення, що стосуються галузі пошуку інформації та її розповсюдження за допомогою інформаційних автоматизованих систем. Документ допомагає зрозуміти значення багатьох слів в інформаційній, видавничій або бібліотечної діяльності, а не тільки таку одиницю мови, як «релевантність». Визначення термінів «пертінентность» і «пертінентний» також розшифровуються пунктом 3.5.2 ГОСТ 7.73-96. Їх слід трактувати, як відповідність отриманих інформаційних даних інформаційної потреби. Найчастіше це поняття плутають з релевантностью, що в корені не вірно, так як в одному випадку мова йде про відповідність запитом, а в іншому - про відповідність потреби. Також неправильно на питання: «що таке релевантність?» Відповідати, що цей термін близький поняттю «адекватність», тобто практичної застосовності результату.
Але як же все-таки знаходиться інформація? Пошукова система використовує армію ботів - автономні програми, які відвідують веб-сайти і зберігають інформацію про них. Назва ця походить від англійського слова «bot», тобто скорочене від «robot». Ці програми знаходять нові сайти, а потім переходять на головну сторінку і переглядають її зміст. Боти вивчають сторінки, пов`язані з домашньої (в браузері вона завантажується першою) внутрішніми посиланнями. Також програми-боти дивляться на посилання, які вказують на інші сайти, тобто зовнішні посилання. Зберігаючи цю інформацію, переходять по них, виявляють все нові сайти і дізнаються, як веб-ресурси пов`язані між собою. Таким чином, вони невпинно вивчають «карту» Всесвітньої павутини. Але що таке релевантність? Яке відношення вона має до ботів?
На конкретному прикладі подивимося, що пропонують пошуковики Яндекс і Гугл. На питання «що таке релевантність?» У видачі Яндекса знайшлося 28 мільйонів відповідей, а у Гугла 155 тисяч. Тут можна сказати, що запитом вони все відповідають, а потребам не завжди, тобто пертінентние будуть далеко не всі з них. Наприклад, сторінки, де в СЕО Вікіпедії дається пояснення цього поняття, будуть безсумнівно корисними, а сайт про релевантних і нерелевантних витратах при прийнятті рішень не відноситься до даної теми. Більш наочним є приклад, коли на запит «руки вгору», подразумевавший отримання інформації про музичній групі, Яндекс видав 31 млн відповідей, а серед них є стаття із закликом піднімати руки вгору, так як це, за твердженням фізіотерапевтів, дуже корисно. Така відповідь не можна вважати пертінентние, хоча з 31 мільйона відповідей він і займає у видачі 586 позицію.
Таким чином, чим вище релевантність тексту, тим більше ймовірність, що він увійде в перші позиції пошукових відповідей. Показник цей має кількісну оцінку, але алгоритми її реалізації у різних пошукових систем відрізняються і невідомі для користувачів, а також вони змінюються з часом, так як пошуковики, намагаючись піднятися в рейтингах, намагаються надавати пертінентние інформацію, скорочуючи час на її пошук. Високорелевантнимі вважаються сторінки, де входження ключового слова, що збігається із запитом, може перебувати в межах від 3 до 7%. Але це не єдиний критерій релевантності документа. До них відносяться ряд внутрішніх і зовнішніх показників. Внутрішніми показниками (крім щільності ключових слів), є їх позиція в тексті (входження в заголовок, близькість їх до заголовка і один одному, з утворенням ймовірних пошукових фраз), а також наявність синонімів, яке підтверджує відповідність змісту тексту запиту. Головним зовнішнім показником прийнято вважати популярність в глобальній мережі, на яку вказують PageRank у Гугл, ТІЦ у Яндекса і Тор100 у системи Рамблер. Тобто, як часто на сторінку переходять з інших сайтів, краще, якщо вони будуть з високими рейтингами. Ось що таке релевантність.