Sostav.ru
Москва, ул. Полковая 3 стр.3, офис 120
© Sostav независимый проект брендингового агентства Depot
Использование опубликованных материалов доступно только при указании источника.

Дизайн сайта - Liqium

18+
19.04.2024 в 12:12

Разработчикам нейросетей не хватает текстов на экзотических языках для их обучения

Из-за нехватки данных уровень и качество работы языковых моделей может снизиться

Разработчикам нейросетей не хватает текстов на различных языках для их обучения. На английском и русском языках данных достаточно, чего нельзя сказать об узбекском, таджикском или казахском языках. Об этом на форуме Data Fusion сообщил директор по развитию технологий искусственного интеллекта (ИИ) «Яндекса» Александр Крайнов, его слова приводят «Ведомости».

В Just AI говорят, что действительно есть сложности с языками, для которых доступно ограниченное число текстов и ресурсов для обучения нейросетей. В их числе диалекты и редкие языки.

В Innostage рассказывают, что на полезность текстов также влияют культурный уровень, разнообразие тематик общения и качество владения языком авторов.

Из-за нехватки количества обучающих данных может снижаться уровень и качество работы языковых моделей, они будут допускать гораздо больше ошибок. А это скажется на точности ответов нейросети и числе пользователей продукта.

Проблему с нехваткой текстов отчасти может решить перевод. Например, у «Яндекса» есть OCR-сервис (Optical Character Recognition) распознавания текста. Также можно оцифровывать тексты, которых ещё нет в интернете, и сотрудничать с языковыми сообществами и носителями редких языков.

В конце прошлого года сообщалось, что в России резко возрос интерес к нейросетям — за год мобильный трафик сервисов по работе с искусственным интеллектом вырос втрое, а их аудитория увеличилась в 3,5 раза.

Обсудить с другими читателями:
Ваш браузер устарел
На сайте Sostav.ru используются технологии, которые не доступны в вашем браузере, в связи с чем страница может отображаться некорректно.
Чтобы страница отображалась корректно, обновите ваш браузер.