Разработчики «ВКонтакте» представили нейросеть, которая создаёт новостные заголовки на русском и английском языках. Для её обучения использовались тексты агентства «РИА Новости» и издания The New York Times, сообщили в пресс-службе соцсети.
Для генерации заголовка нейросети нужен только текст новости. Модель обрабатывает его и формулирует заголовок из фрагментов слов — так она добивается правильных падежей и склонений и в итоге получает связное предложение. Чтобы создать нейросеть, разработчики использовали архитектуру Universal Transformer и технику компрессии данных BPE (Byte Pair Encoding). Таким образом, эта техника была впервые использована для модели суммаризации текста, а также первые обучена на русскоязычных новостных материалах.
Результат работы таких моделей определяется метриками, которые оценивают, насколько автоматический заголовок пересекается с оригинальным, написанным человеком. По некоторым показателям нейросеть разработчиков «ВКонтакте» показала себя лучше, чем другие существующие подходы. Чтобы проверить качество работы модели, разработчики провели отдельное исследование, в котором показывали добровольцам новость и два заголовка к ней. По словам опрошенных, в 45% случаев машинный заголовок был не хуже оригинального, а в 15% — даже лучше.
Даниил Гаврилов, разработчик-исследователь «ВКонтакте»:
Исследование с добровольцами показало, что заголовки, созданные нейросетью, пока не всегда получаются такими же качественными, как написанные человеком. Однако мы не перестаём улучшать модель — и непременно добьёмся равных результатов. Наша и другие разработки помогут быстро выделять главную мысль из длинных текстов — это действительно полезно, ведь информации вокруг нас уже много и становится только больше. Использоваться технология может для самых разных задач, связанных с удобством потребления контента — например, «ВКонтакте» её потенциально можно применить для умного сокращения постов в ленте пользователя или для создания новостных дайджестов.
Презентация работы состоялась в апреле на Европейской конференции по информационному поиску в Кёльне.
Напомним, в начале года T Adviser совместно с PROMT запустили первое в России интернет-издание, работающее на основе технологий искусственного интеллекта (ИИ). Им стала англоязычная версия российского издания TAdviser.ru, которая формируется автоматически с использованием решений машинного перевода компании PROMT.