Разработчикам нейросетей не хватает текстов на различных языках для их обучения. На английском и русском языках данных достаточно, чего нельзя сказать об узбекском, таджикском или казахском языках. Об этом на форуме Data Fusion сообщил директор по развитию технологий искусственного интеллекта (ИИ) «Яндекса» Александр Крайнов, его слова приводят «Ведомости».
В Just AI говорят, что действительно есть сложности с языками, для которых доступно ограниченное число текстов и ресурсов для обучения нейросетей. В их числе диалекты и редкие языки.
В Innostage рассказывают, что на полезность текстов также влияют культурный уровень, разнообразие тематик общения и качество владения языком авторов.
Из-за нехватки количества обучающих данных может снижаться уровень и качество работы языковых моделей, они будут допускать гораздо больше ошибок. А это скажется на точности ответов нейросети и числе пользователей продукта.
Проблему с нехваткой текстов отчасти может решить перевод. Например, у «Яндекса» есть OCR-сервис (Optical Character Recognition) распознавания текста. Также можно оцифровывать тексты, которых ещё нет в интернете, и сотрудничать с языковыми сообществами и носителями редких языков.
В конце прошлого года сообщалось, что в России резко возрос интерес к нейросетям — за год мобильный трафик сервисов по работе с искусственным интеллектом вырос втрое, а их аудитория увеличилась в 3,5 раза.