20.04.2004


Mail.Ru учит Google русскому языку



Компания Mail.Ru внедрила в системе Поиск@Mail.Ru функцию поиска с учетом морфологии русского языка, то есть с автоматическим включением в запрос всех форм слова.

Как сообщает официальный пресс-релиз, теперь Поиск@Mail.Ru стала «единственной в мире поисковой системой», которая осуществляет поиск информации во всем интернете с учетом морфологии русского языка. Хотя «Яндекс» уже давно внедрил морфологию русского языка, но там разработчики имели дело с собственным поисковым движком. На портале Mail.Ru с лета 2003 г. в качестве поискового механизма работает технология Google WebSearch, которая осуществляет индексацию ресурсов всего мирового интернета, а не только русского сегмента сети, на долю которого приходится лишь около 8% страниц.

Нужно заметить, что когда мы говорим о морфологии русского языка, то нет никакой разницы, индексируется ли весь интернет или только русскоязычный сегмент, потому что использование морфологии русского языка актуально лишь при поиске по русскоязычным ресурсам. Так что ни о каких преимуществах русской морфологии в движке Google WebSearch перед «Яндексом» не может быть и речи. Здесь речь идет об устранении специфичных недостатков технологии Google WebSearch.

Механизм компании Google не был до конца адаптирован к особенностям грамматики русского языка, в частности, при обработке поисковых запросов система не учитывала словоформы, получающиеся в результате склонения и спряжения слов, а также множественные пары типа «человек-люди». Таким образом, часть документов с нужными результатами, могла выпасть из поля зрения поискового механизма, если слово в них встречалось в другом падеже или числе, нежели в запросе.

Чтобы решить эту проблему, команда разработчиков компании Mail.Ru создала дополнительный программный модуль, усовершенствующий работу механизма Google. Модуль работает только на портале Mail.Ru, а вот на сайте поисковой машины Google.com эта возможность пока не реализована.

Пользователь может по своему желанию отключать морфологию, в зависимости от конкретной задачи. Это вполне имеет смысл, потому что реализация технологии пока оставляет желать лучшего. В интервью ресурсу Searchengines.Ru Анна Артамонова, вице-президента Mail.Ru по маркетингу и PR, сказала, что морфология реализована методом формирования сложного запроса, который передается в Google. Возможно, в некоторых случаях этот запрос формируется не совсем корректно, потому что часть результатов отсеивается. Например, по запросу «человек» с отключенной морфологией система находит примерно 2,03 млн документов, а с включенной морфологией документов остается всего лишь около 1,03 млн. Для сравнения: «Яндекс» без морфологии по запросу «человек» выдает примерно 8,1 млн страниц, а с морфологией выдается уже 17,5 млн, то есть там ситуация обратная. Возможно, алгоритм формирования сложного запроса будет еще доработан специалистами Mail.Ru, так что подобные странности исчезнут.

Впрочем, во многих случаях использование морфологии все-таки дает положительный эффект. Особенно при поиске информации, которая плохо представлена в Сети. Например, при запросе «румынские поэты биография» поисковая машина выдает 7 документов в режиме «без учета морфологии» и 126 документов «с учетом морфологии».

WEBPLANET.RU