Одно из подразделений китайской компании Huawei разработало нейросеть PixArt-Σ (Sigma), которая способна создавать по текстовому запросу картинки в 4К. Модель основана на более ранних результатах PixArt-α (Alpha) и PixArt-δ (Delta). Её отличает улучшенное качество изображений, точность генерации и более эффективная обработка обучающих данных. Об этом пишет The decoder.
PixArt-Σ способна напрямую создавать изображения размером до 3840×2560 пикселей без промежуточного масштабирования, даже если пользователь выбрал необычное соотношение сторон. Предыдущие модели PixArt могли сгенерировать картинки размером до 1024×1024 пикселей.
Более высокое разрешение изображений требует больших вычислительных затрат. Их разработчики пытаются компенсировать с помощью стратегии обучения «от слабого к сильному». Эта стратегия включает в себя специальные методы тонкой настройки, которые обеспечивают быстрый и эффективный переход от простых этапов к сложным.
Среди использованных при разработке нейросети методов — более мощный автокодировщик переменных, который лучше «понимает» изображения, масштабирование от низкого до высокого разрешения и переход от модели без сжатия ключевых значений к модели со сжатием, которая фокусируется на наиболее важных аспектах изображения.
Также разработчики представили изображения, созданные PixArt-Σ и другими нейросетями.
В конце прошлого года сообщалось, что аудитория нейросетей в России выросла в 3,5 раза. Мужчины чаще женщин пользуются сервисами на основе искусственного интеллекта.