«Яндекс» ищет ML-инженера для разработки ещё не анонсированной нейросетевой модели SpeechGPT. Как сообщает «Коммерсантъ», мультимодальная версия нейросети должна будет воспринимать текст и звук и отвечать при их же помощи, решая разные задачи «на стыке текста и звука».
В «Яндексе» сказали изданию, что работают над «мультимодальностью в ассистенте «Алиса» и других сервисах». На вопрос о модели SpeechGPT в компании не ответили.
По мнению эксперта в области ИИ и продвинутой аналитики компании Axenix Владимира Кравцева, MVP (минимально жизнеспособный продукт) SpeechGPT может появиться в ближайшие месяцы, а «дальше пойдёт процесс непрерывных улучшений». Он предположил, что SpeechGPT прежде всего будет встраиваться в «уже существующие сервисы», затем будет происходить «постепенная замена текущих более простых моделей на современные».
Директор по продукту Hybrid Светлана Другова считает, что разработка «Яндекса» «едва ли будет сопоставима по возможностям с мультимодальными моделями от Google (семейства Gemini) или OpenAI»: «Для того чтобы создать модель, способную конкурировать с ними, потребуются миллиарды долларов. Но учитывая, что у «Яндекса» уже есть наработки, затраты будут несколько меньше».
У «Яндекса» есть нейросетевые сервисы, позволяющие принимать вводные данные разных видов. В частности, с ассистентом «Алисой» можно общаться как голосом, так и текстом. В декабре 2023 года компания сделала отдельный подраздел сайта с текстовым чатом.
В апреле 2024 года компания представила новую версию «Алисы» на основе нейросети YandexGPT. Голосовой ассистент научился объяснять сложные понятия и явления простым языком, предлагать идеи и удерживать контекст беседы.
В последних числах мая «Яндекс» расширил функциональность сервиса Yandex SpeechSense, представленного в марте. Созданный для анализа работы колл-центров сервис стал обрабатывать и текстовые сообщения. Кроме того, возможность обрабатывать одновременно текст и картинки есть в сервисе «Нейро».