KBT - новый алгоритм Google

Новый алгоритм Google «Knowledge-Based Trust»

«Качество веб-источников традиционно оценивается с помощью внешних сигналов, таких, как гиперссылки. Мы предлагаем новый подход, в основе которого лежат внутренние сигналы, а именно корректность фактической информации, полученной из других источников. Источник, который будет иметь минимум ложных фактов, будет считаться надежным». Именно с этих слов начинается документ, опубликованный в конце февраля командой ученых-исследователей Google.

Значит ли это, что вслед за Яндексом Google намерен уменьшить влияние ссылочного фактора? Давайте разбираться с самого начала.

8 августа 2012 года Google официально запустил алгоритм семантического поиска Knowledge Graph («Граф знаний») по всему миру.

Knowledge Graph – это огромная база знаний, используемая Google для улучшения результатов поиска. Именно с этой даты концепция поиска Google сместилась в сторону семантики. Теперь вместо обработки ключевых слов алгоритмы Google пытаются понять смысл запроса. Это первый шаг к семантическому поиску, в том числе, к развитию голосового поиска Гугл.

Спустя два года Google начинает работать над созданием Knowledge Vault («Хранилища знаний») – новой, еще более обширной базой знаний, которая в перспективе заменит Knowledge Graph. Если Knowledge Graph собирает знания только из проверенных источников, вроде Википедии, то Knowledge Vault автоматически собирает и объединяет информацию со всего Интернета в единую базу знаний о мире, людях, связях и объектах.

При чем тут новый алгоритм?

В опубликованном документе сообщается, что сейчас Google никак не определяет, насколько информация на сайтах является достоверной. И если один сайт в Интернете пустит утку и, допустим, слух этот сразу подхватят другие ресурсы, ссылаясь на первоисточник, то сайт-первоисточник, скорее всего, займет достойное место в выдаче. Тем самым Google как бы косвенно способствует распространению ложной информации.

Knowledge-Based Trust – знания, основанные на доверии. Новый алгоритм будет оценивать корректность представленной на сайте информации, сравнивать ее с данными, уже имеющимися в базах знаний Google Knowledge Vault и Knowledge Graph. При этом алгоритм будет понижать в выдаче сайты, если ложных или неподтвержденных фактов будет достаточно много.

KBT VS PageRank

В документе разработчики Google представили несколько интересных экспериментов с KBT. В том числе эксперимент «КВТ против PageRank».

Разработчики сравнили KBT с традиционным PageRank. На рисунке изображены показатели КВТ и PageRank для 2000 случайно выбранных страниц. Значения обоих показателей для удобства сравнения были приведены к шкале от 0 до 1. Как оказалось, в основном значения КВТ и PageRank не коррелируют.

Разработчики более детально исследовали 2 случая, где КВТ значительно отличается от PageRank, чтобы понять, какой из алгоритмов надежнее и почему получились такие расхождения.

алгоритм Google – Knowledge-Based Trust

Исследование №1

Первый случай – низкий показатель PageRank, но высокий КВТ (нижний правый угол): чтобы понять, что именно является источником высокого КВТ, инженеры Google взяли за образец около 100 сайтов со значением КВТ около 0.9. Для каждого сайта инженеры вычленили 3 подходящих утверждения и произвольно выбрали из них 10 триплетов.

Что такое триплеты (или тройки базы знаний), лучше объяснить сразу на примере. Каждый факт состоит из субъекта, объекта и характеристики объекта. Например, Барак Обама – субъект, его гражданство – характеристика объекта, США – объект. Отсюда получаем факт: Барак Обама является гражданином США. База знаний Knowledge Vault собирает информацию о фактах с помощью аналогичных триплетов.

После этого вручную оценили каждый сайт. Из 100 сайтов 85 были признаны надежными. Однако только 20 сайтов из 85 имеют PageRank выше 0.5. Этот эксперимент доказал, что КВТ может распознать источники с надежными данными, даже если у них низкий PR.

Исследование №2

Высокий PageRank, но низкий КВТ (верхний левый угол): инженеры Google рассмотрели 15 самых популярных сайтов, публикующих сплетни о знаменитостях. Среди них 14 имели высокий PageRank, однако для всех показатель КВТ составил меньше 50%; другими словами, они являются менее надежными, чем половина всех сайтов в Сети. Другие сайты, у которых оказался низкий КВТ – это форумы. Например, answers.yahoo.com, рассказывает о том, что Кэтрин Зета-Джонс родилась в Новой Зеландии, хотя, согласно Википедии, она родилась в Уэльсе.

Оба эксперимента показали, что KBT является достаточно надежным алгоритмом, отличным от всех традиционных (вроде PageRank) и способным выявлять сайты, публикующие непроверенные факты, а также сайты, копирующие подобный контент.

Пока сложно сказать, решит ли Google отменить ссылочное, сделав ставку на KBT, или нет. Скорее всего, если станет использвать KBT, то будут учитываться оба фактора.

Когда ждать алгоритм KBT?

Когда точно запустят алгоритм (и запустят ли вообще), пока неизвестно.

Буквально на днях Джону Мюллеру (специалисту отдела по работе с вебмастерами Google) на очередной встрече с вебмастерами в Google+ задали вопрос о том, применяется ли данный алгоритм в ранжировании (см. прямой эфир от 10 марта, 49 минута), на что он ответил, что в штате работают много научных сотрудников, которые периодически проводят различные исследования, но это не значит, что эти разработки будут использоваться в поиске, пока это точно не более чем очередное исследование.

Однако алгоритм КВТ хорошо зарекомендовал себя в условиях предварительных испытаний.

Инженеры Google заявляют: «Исследования показали, что наш метод может вычислить истинную достоверность источников. Мы применили его к базе данных на 2,8 миллиарда фактов, извлеченных из Интернета, и тем самым оценили достоверность 119 миллионов веб-страниц. Выборочные оценки результатов людьми подтвердили эффективность метода.

KBT обеспечивает полезный сигнал о надежности ресурса и не коррелирует с традиционными сигналами, например, с PageRank».

Запуск KBT (если он все-таки произойдет) может стать новой эпохой во всей истории Google и, конечно, одним из важных факторов ранжирования сайтов. Но уже сейчас понятно, что алгоритм может быть применён далеко не ко всем сайтам – его действие будет распространяться лишь на ресурсы, публикующие фактический материал.

KBT – еще один сигнал, говорящий о том, что в скором времени только сайты интересные и полезные для людей будут занимать достойные места в выдаче поисковых систем. И это, безусловно, хорошо для всех.

Tags: 

Добавить комментарий

CAPTCHA на основе изображений
Введите символы, которые показаны на картинке.