Продвигаем бизнес в Интернете с 2001 года

Илья Сегалович: Проблемы в использовании поисковых систем интернета как лингвистического ресурса

В рамках семинара 'Информационные технологии в исследованиях российских филологов' Илья Сегалович читал доклад 'Проблемы в использовании поисковых систем интернета как лингвистического ресурса'.

Последнее обновление: 09 октября 2018 года
5098

По словам Ильи Сегаловича, веб-корпус является бесценным источником данных для лингвистов. На его основе можно строить и проверять различные модели, извлекать знания и статистические данные, проводить сравнительные изучения (например, различия языка в регионах).

Для самих поисковых систем веб-корпус тоже необходим - для измерения качества индекса и для сравнения с другими поисковиками.

Что можно считать? Можно считать словоупотребления, сайты или страницы. Илья Сегалович поделился такими цифрами: средний размер документа в базе Янедкса 600-700 слов, а среднее самое частотное слово - 20-30.

Считать сайты - дело не благодарное. Поисковики не заточены для лингвистов. У некоторых поисковиков наблюдается иллюзия того, что в выдаче мы не получим несколько найденных позиций с одного и того же сайта. Примеров, когда на второй и далее страницах результатов поиска встречаются найденные документы с сайта, который мы уже видели на первой странице, множество. К тому же у поисковиков нет согласия, что же считать сайтом. А для лингвистов удобнее применять к сайтам основную характеристику - у сайта есть один владелец.

Лучше всего считать страницы, в этом случае все более ясно: страница - единица информации в индекс поисковика. Но и здесь есть проблемы. Почти все поисковики часто сознательно не выдают часть результатов: в частности, не показывают похожие друг на друга результаты или не показывают заведомо малорелевантные результаты. Такой эффект 'экономного' поиска называют эшелонированием. С этим эффектом также можно связать необычные перепады в статистике поиска очень частотных слов, которые наблюдались в некоторых поисковых системах.

По поводу нестабильности результатов выдачи поисковиков Илья Сегалович рекомендовал прочитать работу On the Instability of Web Search Engines (Erik Selberg Oren Etzioni), в которой есть результаты эксперимента по сравнению выдачи 9 поисковых машин утром и вечером: результаты отличались от 19,84% до 30,77%. Всем лингвистам Илья посоветовал не верить слишком большим числам и проводить изучение статистики результатов ночью и не делать больших перерывов (больше двух недель) между несколькими измерениями.

Кроме того, важно знать язык запросов поисковых машин, который несколько отличается в каждой реализации. А также знать параметры, которые отключают фильтрацию документов по одинаковым сниппетам. Для Google это параметр filter=0, для Яндекса rd=0, для Рамблера noglue=1, для Yahoo dups=1.

Также Илья Сегалович рассказал про два оператора Яндекса. Оператор языка запросов date позволяет искать в Яндекс.Новостях или в Поиске по блогам с ограничением по дате, например, запрос date='200609' возвращает в результате все новости сентября 2006 года. Параметр, позволяющий не 'склеивать' результаты в сайты pag=u (это аналог типа группировки flat в XML-поиске на xml.yandex.ru).

В конце своего доклада Илья Сегалович подвел итог:
  1. Нельзя верить большим числам статистики поисковиков
  2. Проводить исследования статистики в короткий промежуток времени и желательно ночью, когда нагрузка на сервера минимальна
  3. Если сравниваются западные поисковики с Рунетом, то нужно учитывать разницу во времени
  4. У API, которые предлагают некоторые поисковики, наблюдаются проблемы с тем, что выдается старая версия индекса и нет гарантий, что это тоже самое, что сейчас в основной поисковой выдаче
  5. Интерпретация языка запросов и морфологии у разных поисковых систем разная
  6. Поведение поисковиков меняется со временем

Доставляем экспертный контент

Отправляем полезные статьи, советы наших специалистов, приглашаем
на отраслевые мероприятия.
Подпишитесь, чтобы первыми узнавать об эффективных методах продвижения
вашего бизнеса!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных
и соглашаюсь c политикой конфиденциальности

Спасибо за подписку!

Мы отправили вам проверочное письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.

Произошла ошибка

Пожалуйста, попробуйте еще раз

Вам будет интересно

Перезагрузите SEO-продвижение бесплатно! Выявим точки роста вашего бизнеса
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.