IT-компания SberDevices представила семейство open-source моделей машинного обучения GigaAM (Giga acoustic model). Они предназначены для распознавания русскоязычной речи и эмоций. Их можно применять для подготовки дипломных работ и научных статей. Об этом сообщила пресс-служба SberDevices.
В семейство вошли три модели:
- GigaAM предобучена на русской речи, подходит для работы со звуком, включая распознавание речи и эмоций, определение диктора.
- GigaAM-CTC для распознавания русскоязычных запросов. По заявлению SberDevices, модель допускает в коротких запросах на 20−35% меньше ошибок в словах по сравнению с решениями NeMo-Conformer-RNNT и Whisper-Large-v3.
- GigaAM-Emo для определения эмоций.
Все модели размещены в открытом доступе с некоммерческой лицензией.
В октябре прошлого года SberDevices разработал ИИ-сервис для проверки орфографии в текстах на русском языке. Инструмент работает на основе нейросетевой генеративной модели.
Ранее Sostav рассказал о главном тренде 2023 года — нейросетях, о том, какие задачи чаще всего поручали машине и что из этого вышло.