Разработчик ChatGPT — американская OpenAI — представил новую версию генеративного искусственного интеллекта (ИИ). Модель получила название GPT-4o. В течение ближайших недель её внедрят в решения компании для разработчиков и потребителей, включая ChatGPT.
Как пояснили в компании, буква «О» в названии GPT-4o означает «omni» (всенаправленный) и указывает на мультимодальность GPT-4o. Новая версия ИИ работает с аудио, изображениями и текстом. При этом она реагирует на голос примерно за 320 миллисекунд, что сравнимо с реакцией в разговоре.
ИИ-модель позволит пользователям общаться с ChatGPT голосом и получать ответы в реальном времени без задержек. Кроме того, можно будет прерывать чат-бота во время разговора. В OpenAI отметили, что новая версия соответствует производительности GPT-4 Turbo, но она «лучше воспринимает изображение и аудио по сравнению с существующими моделями».
«В случае с GPT-4o мы обучили новую модель сквозному анализу текста, изображений и аудио, это означает, что все входные и выходные данные обрабатываются одной и той же нейронной сетью», — говорится в сообщении компании. Новая ИИ-модель «владеет» более чем 50 языками, в том числе русским.
GPT-4o доступна пользователям с 13 мая. Однако протестировать голосовые функции в ближайшие недели смогут лишь участники «небольшой группы». В июне эта опция появится у платных подписчиков.
Ранее сообщалось, что OpenAI разрабатывает функцию для ChatGPT, с помощью которой чат-бот будет выдавать ответы на запросы с использованием актуальных данных из интернета, сопровождая их ссылками на источники информации.