«Яндекс» начал разрабатывать единую нейросеть для речи и текста

«Яндекс» ищет ML-инженера для разработки ещё не анонсированной нейросетевой модели SpeechGPT. Как сообщает «Коммерсантъ», мультимодальная версия нейросети должна будет воспринимать текст и звук и отвечать при их же помощи, решая разные задачи «на стыке текста и звука».

В «Яндексе» сказали изданию, что работают над «мультимодальностью в ассистенте «Алиса» и других сервисах». На вопрос о модели SpeechGPT в компании не ответили.

По мнению эксперта в области ИИ и продвинутой аналитики компании Axenix Владимира Кравцева, MVP (минимально жизнеспособный продукт) SpeechGPT может появиться в ближайшие месяцы, а «дальше пойдёт процесс непрерывных улучшений». Он предположил, что SpeechGPT прежде всего будет встраиваться в «уже существующие сервисы», затем будет происходить «постепенная замена текущих более простых моделей на современные».

Директор по продукту Hybrid Светлана Другова считает, что разработка «Яндекса» «едва ли будет сопоставима по возможностям с мультимодальными моделями от Google (семейства Gemini) или OpenAI»: «Для того чтобы создать модель, способную конкурировать с ними, потребуются миллиарды долларов. Но учитывая, что у «Яндекса» уже есть наработки, затраты будут несколько меньше».

У «Яндекса» есть нейросетевые сервисы, позволяющие принимать вводные данные разных видов. В частности, с ассистентом «Алисой» можно общаться как голосом, так и текстом. В декабре 2023 года компания сделала отдельный подраздел сайта с текстовым чатом.

В апреле 2024 года компания представила новую версию «Алисы» на основе нейросети YandexGPT. Голосовой ассистент научился объяснять сложные понятия и явления простым языком, предлагать идеи и удерживать контекст беседы.

В последних числах мая «Яндекс» расширил функциональность сервиса Yandex SpeechSense, представленного в марте. Созданный для анализа работы колл-центров сервис стал обрабатывать и текстовые сообщения. Кроме того, возможность обрабатывать одновременно текст и картинки есть в сервисе «Нейро».

Новости

Digital

Медиа

Креатив

Маркетинг

Бизнес

Общество

Спецпроекты

Sostav.Школа

Лекторий

Интервью

Итоги года 2025

Шкала эффективности рекламы

Карьера

Нейрокомикс

Bookchain

Выбор редакции

Рейтинг медиаагентств 2025

ТОП-30 крупнейших рекламодателей России 2025

Подкасты

Видео

Реклама на сайте

Контакты

Гайдлайны

Каталог компаний

Рейтинги

Бизнес-блоги

Блоги

Sostav в соцсетях

«Яндекс» начал разрабатывать единую нейросеть для речи и текста

Компания открыла вакансию инженера в области машинного обучения для модели SpeechGPT