12.12.2005

Новые патенты Yahoo и Microsoft



Анатолий Ализар

Патентное ведомство США на днях опубликовало две новые патентные заявки, полученные от компаний Yahoo и Microsoft. Это интересные разработки в области извлечения данных.

Программа Yahoo предназначена для автоматической идентификации и извлечения нужных данных из разнородных HTML-страниц с целью создания базы данных из неструктурированного веб-контента. Довольно интересная технология — в заявке № 20050273706 от 4 мая 2005 г. описаны некоторые детали.

Алгоритм, разработанный Yahoo, работает полностью автоматически после установки и минимального конфигурирования. Как сообщается, он может анализировать страницы одинакового или разного формата и работает в реальном режиме времени, то есть очень быстро.

Для чего нужна эта технология? Согласно описанию от Yahoo, она может применяться для создания программных агентов, которые отслеживают информацию о продуктах и сравнивают цены или другую информацию. Алгоритм можно использовать для заполнения структурированных баз данных с целью анализа продуктов и их характеристик. И, в конце концов, его можно использовать в классических программах по извлечению данных, которые ищут в неструктурированном объеме информации определенные закономерности, полезные, например, для маркетингового анализа. Кстати говоря, данное изобретение очень напоминает систему Dulance, над которой работает Сергей Бурков. Та программа, возможно, более специализирована, однако тоже способна автоматически идентифицировать товарные предложения, определять цену и описание товара.

Нужно заметить, что одним из двух разработчиков новой технологии является легендарный Уди Манбер, ныне возглавляющий A9 — поисковое подразделение Amazon.

Заявка на патент от Microsoft зарегистрирована 12 августа 2005 г. под № 20050273469. Она описывает метод генерации электронных «желтых страниц» для клиента из определенного географического региона таким образом, что он включает предложения от поставщиков, находящихся за пределами этого региона, но оказывающих услуги в этом регионе.

Можно предположить, что система, разработанная в Microsoft, предназначена для реализации в локальном интернет-поиске. Традиционно в него включаются поставщики из определенного региона, данные по которому запрашивает пользователь. А сейчас в него можно включать и глобальных поставщиков, например, интернет-магазины, клиенты которых могут проживать где угодно.

В заявке описано, что при включении таких поставщиков в результаты локального поиска, может автоматически выводиться текстовая подсказка, объясняющая причину появления здесь этого поставщика.

WEBPLANET.RU