Разработчикам нейросетей не хватает текстов на экзотических языках для их обучения

Разработчикам нейросетей не хватает текстов на различных языках для их обучения. На английском и русском языках данных достаточно, чего нельзя сказать об узбекском, таджикском или казахском языках. Об этом на форуме Data Fusion сообщил директор по развитию технологий искусственного интеллекта (ИИ) «Яндекса» Александр Крайнов, его слова приводят «Ведомости».

В Just AI говорят, что действительно есть сложности с языками, для которых доступно ограниченное число текстов и ресурсов для обучения нейросетей. В их числе диалекты и редкие языки.

В Innostage рассказывают, что на полезность текстов также влияют культурный уровень, разнообразие тематик общения и качество владения языком авторов.

Из-за нехватки количества обучающих данных может снижаться уровень и качество работы языковых моделей, они будут допускать гораздо больше ошибок. А это скажется на точности ответов нейросети и числе пользователей продукта.

Проблему с нехваткой текстов отчасти может решить перевод. Например, у «Яндекса» есть OCR-сервис (Optical Character Recognition) распознавания текста. Также можно оцифровывать тексты, которых ещё нет в интернете, и сотрудничать с языковыми сообществами и носителями редких языков.

В конце прошлого года сообщалось, что в России резко возрос интерес к нейросетям — за год мобильный трафик сервисов по работе с искусственным интеллектом вырос втрое, а их аудитория увеличилась в 3,5 раза.

Новости

Digital

Медиа

Креатив

Маркетинг

Бизнес

Общество

Спецпроекты

Sostav.Школа

Лекторий

Лицо рынка

Мнение рынка

Bookchain

Экспертиза

Итоги года 2025

Карьера

Выбор редакции

Рейтинг медиаагентств 2025

ТОП-30 крупнейших рекламодателей России 2025

Подкасты

Видео

Реклама на сайте

Контакты

Гайдлайны

Каталог компаний

Рейтинги

Бизнес-блоги

Блоги

Sostav в соцсетях

Разработчикам нейросетей не хватает текстов на экзотических языках для их обучения

Из-за нехватки данных уровень и качество работы языковых моделей может снизиться