Сбербанк представил новую версию нейросети Kandinsky 3.0. Модель лучше понимает текстовые запросы и за несколько секунд создаёт реалистичные изображения, в том числе на тему культуры России. Об этом говорится в сообщении банка.
Нейросеть научилась создавать ещё более фотореалистичные изображения, генерировать полноценные художественные картины и арты со скетчами. Отмечается, что модель работает с запросами из широкого списка тем и «способна реализовать любой полёт фантазии».
«Kandinsky 3.0 лучше предыдущих версий знает элементы отечественного культурного кода. Так, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например гжельской росписи», — пояснили в компании.
Кроме того, у новой модели улучшена функция редактирования изображений и возможность их дорисовки в режиме бесконечного полотна.
Kandinsky 3.0 создаёт изображения с высоким разрешением — 1024×1024 пикселей. При этом нейросеть может синтезировать картинки с выбранным соотношением сторон.
Для обучения нейросети разработчики использовали обновлённый датасет в размере 1,5 млрд пар «текст — изображение», содержащий данные, которые прошли многоэтапные процедуры фильтрации.
Пользователи Kandinsky 3.0 могут создавать видеоролики по текстовому описанию в режиме анимации. По одному запросу генерируется видео длиной до четырёх секунд c выбранным эффектом анимации.
Также Сбер представил нейросеть Kandinsky Video — генеративную модель для создания полноценных видеороликов по текстовому описанию. Модель генерирует видеоряд длительностью до восьми секунд с частотой 30 кадров в секунду.
Архитектура Kandinsky Video состоит из двух ключевых блоков. Первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео. Второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео.
В основе обоих блоков лежит модель Kandinsky 3.0.