Оценочный поиск в Google - Статьи вебмастеру

Quote

Наша цель — дать возможность пользователям Google задать вопросы, вроде “Что я буду делать завтра?” и “На какую работу мне стоит устроиться?”… Мы отвечаем быстро, изходя из всей имеющейся информации. В будущем алгоритмы станут лучше и мы улучшим персонализацию.
— Управляющий в Google, Эрик Шмидт (Eric Schmidt)

Небольшое изменение в формулировке, но очень важное. Google дал понять, что его поисковые результаты более не опираются на автоматику и алгоритмы, которыми хвасталась компания. Сейчас они опираются на алгоритмы лишь “преимущественно”. Почему произошли такие изменения?

Некоторые факты утверждают, что алгоритмы постоянно калибруются исходя из человеческого фактора. Например, Google нанял большую команду “экспертов для оценки поиска” (копию старого обучающего руководства можно скачать здесь). Эти оценщики, в основном, студенты колледжей по всему миру, они анализируют поиск по определенным критериям, тестируют различные алгоритмы и определяют, какие из них работают лучше, предоставляя качественные сайты.

Предоставляя также персонализированный поиск, когда пользователь в своем аккаунте может удалить или поощрить ряд сайтов из результатов поиска, Google использует эти данные для настоек и дальнейшей оптимизации алгоритма. Таким образом, объективная оценка и ранжирование сайтов частично определяется субъективными причинами коллективного человеческого разума.

В предоставленных интервью инженеры Google делятся некоторыми особенностями поиска. Эти инженеры — технический директор Скот Хафман (Scott Huffman), младший программный инженер Мэт Катс (Matt Cutts) и ещё один сотрудник Амит Сингал (Amit Singhal).

Как вы поддерживаете качество поиска?
Мы постоянно оцениваем качество наших результатов в сотнях различных местах и на разных языках. Каждый день мы смотрим на случайные примеры, которые мы получаем от пользователей. Оценщики наблюдают за качеством каждого результата по этим запросам. Мы постоянно отслеживаем довольно большой массив различных видов сигналов качества.

Раскажи немного о человеческом факторе. Вы наняли людей для оценки страниц?
Да, у нас есть ребята по всему миру, обученных оценивать качество результатов. Мы предпочитаем, чтобы они были “в-стране”, таким образом, понимая культуру и некоторые другие вещи. Также у нас имеется специальная система, дающая им различного рода оценочные задачи. Например, “скажите нам свое мнение о том, насколько хороши результаты для этого запроса”. И потом мы выводим ряд агрегированных метрик, которые проверяются и могут использоваться в дальнейшем.

И как много у вас таких оценщиков?
Сколько их? Не думаю, что могу назвать точную цифру, к сожалению.

Ну примерно? Я слышал порядка 10.000
Ну, их количество довольно большое по ряду причин. Во-первых, у Google множество локалей и на каждую из них требуются оценщики. Во-вторых, мы предпочитаем большую группу, чтобы иметь независимую картину качества. Мы получаем множество запросов со всех стран мира, таким образом, нам нужно большое количество людей для понимания, насколько хороши результаты для них.

А эти оценщики являются студентами или случайными ребятами, ответившими на объявление о работе? Какие к ним требования?
Это довольно разные люди. Требования к ним не супер-специфичны. В основном, мы требуем начальный уровень образования, преимущественно из-за того, что они должны уметь очень активно взаимодействовать с нами, давать комментарии и другие подобные вещи в письменной форме.

Интересно, как вы их обучаете?
Обучение довольно простое. Имеется множество документации и видео-курсов, а также различные практические мероприятия. Мы помогаем им понять, что значит для поисковых результатов быть высокорелевантными и юзабельными для пользователя. Имеется ли преобладающий результат на сегодня для определенного запроса? Если да, то он должен быть прямо здесь в топе. Возьмите, к примеру, запрос “Олимпиада”. Если пользователь ищет по “олимпиада”, результаты с 1996-го года не так интресны, как с 2008-го.

Ну а как вы исследуете данные, полученные от оценщиков? Имеется ли какой-нибудь контроль качества?
Оценщики работают в разных местах и мы не видим их каждый день. Мы даже не разговариваем с ними по телефону. У нас имеются некоторые автоматические измерения, которые берутся во внимание. Также имеются модераторы. Однако, окончательно, контроль качества выполняется ребятами, работающих с ранжированием и поисковым пользовательским интерфейсом. Они единственые, кто понимает, почему мы лучшие сегодня в Китае, чем были неделю назад или месяц назад. Что изменилось? Что мы сделали лучше? Оценочная программа, в действительности, всего лишь дает нашим инженерам агрегированные данные о том, насколько хороши их алгоритмы и, таким образом, они могут их улучшить.

Вы описали процесс, в котором эксперты посещают определенные web-страницы и дают им рейтинг в соответствии с определенными критериями. Эти данные как-то влияют на PageRank сайтов или стоимость бида в поисковой рекламе?
Мы не используем эти данные для подобных целей. Я имею в виду, что потенциально это возможно, но полученные оценочные рейтинги сайтов никогда напрямую не влияют на поисковые результаты. Мы никогда не возвращаемся со словами, “О, мы узнали от эксперта, что этот результат не так хорош как тот, поэтому давайте их поменяем местами”. Поступая таким образом, весь процесс исказится и оценка будет довольно трудоемка. Поэтому мы никогда не трогаем результаты.

Давайте немного вернемся. Откуда истоки этого проекта? Кто его придумал?
С самых первых дней Google нам было интересно, насколько хорошо работают наши алгоритмы. Я тогда ещё не работал здесь, но понял, что имелся набор любимых 10-ти запросов Сергея (Sergey Brin, прим. devaka), при изменениях алгоритма люди производили поиск по этим запросам и нужно было быть уверенным, что все работает отлично. Очевидно, Google приобретал больше популярности и траффика и требовался более широкий набор запросов. Таким образом, мы решили, что нам необходимы оценочные эксперты в тех странах, которые мы обслуживаем, понимающих культуру. Мы нуждались в команде, которая могла бы оценить результаты с перспективой на будущее.

Как вы поддерживаете качество поиска?
Если в общих чертах, мы улучшаем наши алгоритмы и разрабатываем систему, где используем совершенно новый подход для улучшения релевантности. Моя обязанность следить за людьми, которые пытаются взломать (обмануть) систему и не показывать их выше, чем они бы этого хотели в наших поисковых результатах. Мы хотим, чтобы сайты высоко ранжировались по заслуге, а не по определенным ярлыкам (сигналам).

Понятно, а как вы это делаете?
Мы используем различные данные, например, жалобы пользователей. Также имеется ряд внутренних метрик, используемых нами для отслеживания текущих трендов. Они помогают понять нам, что люди на данный момент используют для спама, который проходит через нашу защиту. Таким образом, мы определяем подобные вещи, мы пишем новые алгоритмы или разрабатываем инструменты, помогающих определять и препятствовать спаму. То есть, большая часть того, чем мы занимаемся, это просто анализ тенденций спама.

Имеется ли элемент человеческой оценки в этом процессе?
Каждая команда отвечает за основные измерения поискового качества, однако, они не меняют рейтинг или делают что-то подобное. Мы всего лишь анализируем очевидные нарушения политики. Например, если при вводе своего имени вы получаете не свой блог, а порно-сайт, вам это не понравится. Вероятно, что вы пожалуетесь в Google. Будет весьма неприятно, если вы получите от нас ответ, “да, мы думаем, что можем усовершенствовать алгоритм, который пофиксит эту проблему через 5-6 месяцев, а пока что мы оставим этот порно-сайт в топе”. Явно, что это совсем неудовлетворительный ответ.

То есть, при спаме, мы иногда применяем ручные методы для такого рода нарушений правил. Однако, философия Google в том, где бы ты не мог использовать машины и алгоритмы, это намного лучше, надежней и имеет расширяемость. Таким образом, мы полагаемся в большей степени на компьютер, как на главную линию обороны.

Однако, вы вынуждены удалять спам вручную пока не найдете алгоритм для борьбы с ним. Настанет ли когда-нибудь тот день, когда человеческое вмешательство подобное тому, как вы описали, не будет настолько необходимым или же мы с каждым годом все больше и больше нуждаемся в человеческом вмешательстве?
Очень классный вопрос, однако, я пока не знаю ответа. Можно спроецировать это на модель PageRank. Этот показатель тем точнее, чем больше страниц участвуют в его подсчете. Также, чем больше страниц вы будете анализировать, тем легче определить насколько достойна уважения определенная страница без человеческого вмешательства.

Так как Интернет растет в размерах, также появляются новые различные нарушения политики поисковой системы, такие как спрятанный текст, клоакинг. Это те вещи, где их лучшим образом определит только человек. И конечно, вы можете определить некоторые из них компьюетными алгоритмами, но не все. Таким образом, наши цели в том, чтобы постоянно быть уверенным в эффективности алгоритмов. Однако, я совершенно не представляю, что из этого выйдет в будущем.

Раскажи немного об истории оценочного поиска и твою роль в нем.
Оценочный поиск возник в ранних 60-х в Англии. Поиск тогда был булевым. Первым оценочным показателем была полнота (recall). У вас есть запрос и 100 релевантных ему документов. Сколько из них выйдет на выходе при поиске? Мы быстро смогли найти легкий способ получить 100% полноту. Однако, мы также заметили, что поиск часто возвращал множество нерелевантных документов вместе с релевантными. Таким образом мы пришли ко второму показателю оценки поиска — точности (precision). Точность показывает процент хороших результатов. То есть, если поиск вернул 100 из 100 релевантных документов для запроса, но при этом общее кол-во полученных документов 1000, то полнота будет 100%, а точность всего лишь 10%.

Эти два показателя или некоторая их комбинация учитывались все время, они используются даже в современных поисковых системах, например Google. Таким образом, с самого начала поиска были команды в лаборатории, которые судили насколько релевантны поисковые результаты человеческому запросу.

Но релевантность понятие субъективное.
Верно. Однако, эти показатели оценки качества не влияют напрямую на результаты, возвращаемые пользователям. Они лишь используются для определения, хорошо ли работает алгоритм или лучше ли работает новый алгоритм по сравнению со старым. Они не влияют непосредственно на пользователя а всего лишь являются калибровочными инструментами.

Мэт и Скот упоминали о человеческих поисковых оценках. Хотелось бы узнать, насколько велика их роль в Google?
Ну, наш оценочный поиск основан на многих компонентах. Один из них это человеческая оценка. У нас имеются также автоматические системы, они говорят нам, к примеру, если пользователи внезапно прекращают кликать на первый результат и вместо этого начинают кликать на пятый результат. Все вместе, эти приемы говорят нам, насколько хорошо действует наша система в каждый момент времени. И мы делаем это на более чем ста языках.

Как вы балансируете свежие результаты с более старыми?
Когда новые результаты более релевантны чем старые? Этот вопрос очень важен для наших пользователей и, соостветственно, для наших алгоритмов. Таким образом, мы определяем свежесть запроса — этот запрос заслуживает свежести сегодня, но не три недели назад. Мы также делаем подобное с документами. Мы постоянно спрашиваем, насколько свеж этот документ? Насколько релевантен? Насколько полезен? И мы собираем ответы на эти вопросы исключительно алгоритмически и предоставляем их пользователям в нашем универсальном поиске. Все это делается автоматически, однако, определенный человек сидит тут и говорит, популярен ли сегодня GM или Mumbai. К концу дня человек склонен это делать субъективно, а алгоритмы нет. И они могут сделать такие же определения на сотнях языков.

Насколько далеко мы зашли в поиске?
Мы едва лишь начали. Мы даже и близко не подошли к тому, как это должно быть. Поиск является очень серьезной проблемой и тяжелая часть здесь это то, что ожидания пользователей довольно разносторонние и их запросы все выше и выше по мере улучшения поиска. Таким образом, поиск ни коим образом не решенная проблема.

Так что же будет дальше?
Что будет следующим в поиске? Намного, намного лучший поиск… его широта, когда пользователь не должен идти на YouTube для того, чтобы найти видео или в Google, чтобы найти документы. Если любой вид из контента релевантен вам, он должен показаться в результатах поиска. То есть, поиск станет фокусироваться на том, кто вы и где вы. Он будет локальным для вас, как для индивидуальности, а также локальным с географической точке зрения. Все вместе это даст универсально релевантные результаты, соответствующие вам и вашему местонахождению.

Вернемся немного к роли чевеческой оценки в поиске, как ты думаешь, будет ли это необходимо всегда? Будут ли они более или менее важными в будущем? Как изменится их роль?
Я уверен, что роль человеческой оценки в поиске будет присутствовать до тех пор, пока мы не научимся распознавать язык с помощью компьютера, что довольно далеко от того, где мы находимся сейчас. Вам должно быть известно, мы приложили множество усилий, однако, технология понимания языка далека от того, чтобы определить, искал ли человек именно этот документ или нет.