Генерация картинки по референсу

2024-08-23 15:43:18 Время чтения 5 мин 496

Привет, это Настя, руководитель отдела контента ИИ-сервиса Aigital. Мы создаем инструменты на основе нейросетей, чтобы пользователи и корпоративные команды могли легко и быстро решать маркетинговые и бизнес-задачи. Здесь мы делимся разборами наших навыков и ИИ-ассистентов.    

Разберем, как генерировать картинки по референсу с помощью ИИ.

С навыком «В стиле референса» можно решать множество прикладных задач: от генерации обложек для YouTube-видео в едином стиле до создания изображений для сайта компании или соцсетей. Он учитывает стиль, цветовую палитру и композицию предложенного изображения при генерации. Помимо этого навык учитывает и то, что указано в текстовом промпте.

Например, в поле «Референс» вы добавляете картинку — обложку с любого YouTube-видео, которая вам нравится по стилистике и цветовой палитре. В текстовом поле указываете, что вам нужна обложка для Youtube-видео с рецептом приготовления шашлыков для кулинарного блога. В результате вы получаете картинку с шашлыками, подходящую по тематике для вашего блога, а по стилистике, палитре и композиции похожую на изображение, что вы добавляли в качестве референса.

Под капотом навык работает следующим образом:

  1. На первом этапе ИИ анализирует референс — GPT-4o подробно описывает картинку с разных сторон, прорабатывает её стилистику.
  2. В параллель с этим другая нода GPT-4o берет текстовый запрос пользователя и переводит его на английский.
  3. На следующем шаге GPT формирует объемный промпт, объединяя описание референса и текстовый запрос пользователя. Веса в нем расставлены так, чтобы нейронка понимала, на что следует обратить больше внимания, а на что меньше.
  4. Этот текстовый промпт отправляется в Fooocus.
  5. Fooocus умеет работать с входящими изображениями, поэтому вместе с текстовым промптом приходит и картинка-референс. Получается двойной удар по задаче — и со стороны текстового описания референса, и визуально — с ориентиром на само исходное изображение.
  6. Fooocus сохраняет не только цветовую палитру, но и пропорции картинки-референса. Это особенно удобно, если требуется определенный размер изображения.
Генерация изображения в навыке «В стиле референса»
1 / 2

Далее обученная нами модель улучшает черты лица на картинке и передает ее пользователю.

Мы решили поэкспериментировать и сгенерировать стол со стульями на основе скрина нашего лендинга. Нейронка сохранила пропорции, забрала темно-серый на фон, а зеленый и белый в акценты.

Изображение сгенерировано в навыке «В стиле референса»

А если вам интересно читать о мире нейросетей, идеях и жизни проекта, подписывайтесь на наш телеграм-канал.