Датасет и немного «магии»: как использовать дипфейки в продакшене рекламных роликов

Создание дипфейков (face-swapping, технология обмена изображений лиц) представляет собой синтез ИИ нескольких визуалов — машинный алгоритм генерирует новый контент из заданного набора. Раньше подобные эффекты были возможны только в кинематографе, сейчас они становятся универсальным инструментом в различных отраслях: от политических кампаний до индустрии медиа. Команда Deepcake рассказала, как данная технология может успешно реализовать себя в видеопродакшене рекламы.

Мы — стартап Deepcake, сообщество инженеров и креаторов, которое с помощью нейронных сетей преображает визуальный контент. Наши технологии способны создавать видео с теми, кого нельзя привезти на съемки, менять возраст персонажа за несколько часов на десятки лет, производить и редактировать ролики, взяв за основу всего одно фото и текст, а также наполнять коммуникацию с аудиторией персональными и эмоциональными сообщениями.

В 2020 году наша компания выпустила 20 проектов с генерацией лица на видео: делали дипфейк для рекламных и образовательных сегментов, работали над кинофильмом и бесконечно создавали цифровые копии знаменитостей. Нейронные сети и организованный процесс производства контента — это то, что сделало нашу работу востребованной и узнаваемой.

Компьютерная магия

Внедрение дипфейков можно сравнить с тем, как в коммерческие проекты интегрировали 3D — умели это делать только единицы, это стоило невероятных денег, но при этом кейсы вызывали всеобщий восторг. CG-художники выдвигали условия для работы продакшн-команды: в кадре актеру нужно было фокусировать взгляд на объекте, которого пока нет, нельзя выходить за границы кадра, зеленый экран должен сопровождать героя на протяжении всей сцены — вся команда испытывала трудности от такого длительного процесса.

Тридцать лет назад первые достижения в области компьютерной графики в тогда еще советских газетах называли «компьютерной магией». В то время не было не только разговора об использовании технологий в маркетинге и коммуникациях, — самой индустрии еще не существовало.

Вырезка из газеты о проведении конференции «Компьютерная графика в науке и искусстве» в 1991 году

Сегодня работами по созданию 3D-моделей в рекламе никого не удивишь. Кроме того, специалисты 3D-графики стали частью продакшн-команд наряду с кастинг-менеджерами, продюсерами, цветокорректорами, костюмерами и операторами. Они создают героев, объекты, а также исправляют ошибки, допущенные на съемке.

Брифинг команды

Есть три вещи, которые мы узнаем на старте у клиента: кого будем генерировать, откуда будем генерировать, куда будем генерировать. Проще говоря, чью «голову» (лицо, голос) мы возьмем и куда «перенесем». Исходя из ответа, начинаем формировать гипотезы по пайплайну генерации.

На самом деле никакого «переноса» не происходит — нейронные сети имитируют лицо, а не создают цифрового близнеца. Они изучают внешний вид «донора» — того, чей образ хотим воссоздать, и «дублера» — того, кого используем в качестве физической основы для генерации, а также условия среды — позу головы, мимику и эмоции, цвет лица, свет, тени и другие.

После анализа информации о том, как выглядят оба героя, алгоритм старается воспроизвести внешность актера, сохраняя мимику и другие характеристики видео с дублером, с некоторыми следами («артефактами») его образа. Поэтому основа качественной генерации — внимательно собранные данные (датасеты) с донором и дублером.

Датасет как исходный материал для старта генерации

Важными свойствами данных в наших кейсах является их качество (разрешение), разнообразие поз и эмоций, а также однородность с точки зрения цвета и света. Лучший способ собрать данные — это провести съемку с «актером» и «дублером», организовав нужные условия по свету, зафиксировав необходимые ракурсы в нужном разрешении. Достаточный датасет достигает 4−6 тысяч лиц.

Часто мы имеем дело со вторичными данными — кадрами кинохроники, которые могут страдать зернистостью, недостатком эмоций и ракурсов, а также иметь сложную колористику. Например, мы работали с советскими картинами 70-х годов — это было непросто.

Это требует особого внимания — мы применяем как инструменты нейросетевого улучшения (AI Video Enhancing), так и кропотливый ручной труд по выбору самых удачных кадров. Сама детекция лиц на видео происходит машинным способом.

Подбор актеров и подготовка съемок

Чтобы сгенерированное лицо было максимально достоверным, лучше выбрать дублера с похожим строением головы. Дублер — это реципиент, на чье лицо будет генерироваться лицо актера. Если пропорции головы будут отличаться, то нейронные сети будут искусственно вписывать лицо в слишком широкую или узкую рамку.

Мы обращаем внимание на скулы, форму черепа, подбородок и высоту лба. При генерации лица мы не переносим волосы и прическу. Для добавления сходства необходимо воссоздать прическу, расположение челки — как требует того сценарий. Волосы становятся частой проблемой в итоговых материалах, потому что им уделили мало внимания на съемках. Для отличного результата консультируем кастинг-менеджеров на этапе подбора дублеров.

Процесс адаптации кастинга, раскадровок, съемочного и монтажного плана под задачу генерации лица на видео — это новая веха не только в работе нашей команды, но и для продакшн-индустрии в целом. Чтобы качественно выполнить задачу в поставленные сроки мы создавали предварительную модель: микшированные копии лиц дублера и актера, которые в дальнейшем помогали быстрее сгенерировать героя для роликов.

На съемках нам важно контролировать повороты головы дублера — если он отвернется слишком сильно, нейронные сети не смогут задетектировать лицо, и кадр будет забракован. Когда мы обсуждали эту проблему на первых проектах, заказчики транслировали свою обеспокоенность: это урезает сюжет и возможности, и накладывает ограничения на поведение актера в кадре.

Наше присутствие на съемочной площадке дает возможность избегать сложностей при дальнейшей генерации лица. Мы влияем на все этапы — свет, повороты головы, мимику. В 2020 году мы удаленно подключались к плэйбэку и присутствовали на съемках, в режиме реального времени комментируя процесс для съемочной группы.

Итоговая генерация

Ключевое ограничение в работе рекламного продакшена — сложность генерации лица на крупных планах. Если лицо занимает больше шестой части кадра, то потребуется больше времени для детализации (морщины, направление взгляда, мимика). Если лицо слишком маленькое, то алгоритм сложнее распознает его контур. Для ускорения производства мы рекомендуем работать преимущественно со средними планами.

В зависимости от бюджета и возможностей клиента мы используем оборудование, которое больше подходит под проект — оно влияет на скорость генерации и итоговое качество. Видео в высоком разрешении мы обучаем за семь дней (до одной минуты контента).

В наших проектах в конце 2020 года с помощью самых мощных графических процессов (NVIDIA DGX A100) мы параллельно обучали 20 сцен, разбитых по однородным цветовым группам для повышения однородности результата и во избежание эффекта лица-маски. Мы называем этот этап «Face-swapping» — он занял у нас три недели.

Сейчас наша команда разрабатывает новый генератор, который позволит драматически ускорить процесс гиперреалистичного переноса до нескольких минут. Наши нейросети написаны на базе популярного фреймоворка PyTorch, что обеспечивает их адаптивность.

В работе с нейронными сетями мы уделяем большое внимание цветокоррекции — алгоритмы умеют самостоятельно «подкрашивать» обучаемые материалы, чтобы сгенерированное лицо могло выглядеть однородно.

В ручном режиме из-за агрессивной контрастности и перетянутой экспозиции на кадрах поверх имитированного лица могут появиться артефакты — приподнятая бровьили смещение двух половин лица. В результате долгих экспериментов мы проверили несколько гипотез, которые помогают решить эту проблему.

Как использовать дипфейк сегодня

Дипфейки как инновация уже создали несколько ярких прецедентов на коммерческом рынке, и пришло время их использовать регулярно и по назначению. Несмотря на то, что для ускорения процессов применения технологии нужен прорыв, сейчас мы уже можем направлять ресурсы нейронных сетей на решение текущих задач и формирование организационной структуры. Например, в разгар пандемии бренд Hulu использовал генерацию лиц, чтобы не собирать звезд спорта на одной площадке.

Или обсуждаемый кейс с «возрождением» Жоржа Милославского — о нем уже писал Sostav. Эти примеры доказывают возможность управлять временем и возволяют проводить съемки дистанционно.

Сметы на дипфейк-проекты уже не шокируют, а скорость реализации в разы превосходит аналогичные решения от CG, не уступая и даже превосходя их в реализме. В итоге все сложности, которые могут возникнуть на этапах их производства, уступают перед неограниченными возможностями для творчества и рациональным расходом медиаресурсов.

Обсудить с другими читателями:

Правила

Слабый троллинг какой-то. Впрочем, как и стратегия троллить лидера.

Неизвестный 15.10.2020 в 09:30

Пожаловаться

Нет ,apple далеко не лидер продаж.Ошибаетесь.Они больше смахивают на секту.Когда людям впаривают фуфло старых разработок,а те свято верят и радуются.

Неизвестный 15.10.2020 в 10:16

взял попкорн

Неизвестный 15.10.2020 в 10:23

Эпл лидер продаж. Вторая ссылка гугла в пруфы - mobiltelefon.ru/post_1599030950.html

А создание секты - главное достижение маркетинга Эпл. Вы что делаете на сайте про рекламу? а, это ж состав...

Неизвестный 15.10.2020 в 10:25

most shipped... читать научись
вообще уже давно известно даже деревенщине, что самсунг не первом месте по количеству проданных девайсов (уже не первый год)

Неизвестный 16.10.2020 в 12:17

Тыкайте собакам во дворе и своей мамке.
Мост шипед сильно меняет дело, ага, наверное они на складах пылятся в отличии от хуявеев и самсунгов?)) Господи, кого состав здесь только не собрал...

Неизвестный 16.10.2020 в 13:23

В гугле набери простой запрос и убедись, что ты не прав. Ох, эти фанаты. Слиной экран не забрызгал?

Неизвестный 16.10.2020 в 14:25

gartner.com/en/newsroom/press-releases/2020-08-25-gartner-says-global-smartphone-sales-declined-20--in-

Чтобы не быть голословным. Надеюсь gartner для вас достаточно авторитетен.

Неизвестный 16.10.2020 в 14:41

... и это не отменяет того, что apple крут и т.п. Нравится - пользуйтесь и платите за смартфон (кам он, всего лишь смартфон, я вот свой уже 2.5 года не менял - селфики для лохов, игры не нужны, а для всего остального - прекрасно работает) овер дохрена денег (маржа в разы больше, чем у других производителей), жертвы маркетинга.
просто лидер рынка все же самсунг.

Неизвестный 16.10.2020 в 12:22

Уважаемый, как вы пользуетесь своим кирпичиком никого не интересует на сайте про то КАК РЕКЛАМИРОВАТЬ и ПРОДАВАТЬ товары. Идите на форум андроидодрочеров и там рассказывайте про свои потребительские паттерны и влажные мечты о корейском лидерстве))) Эпл - маркетинговая икона, что позволяет кампании делать маржу в разы больше чем у других. И это круто, этого хотят все кампании. Реклама как раз про это, алё, дядя! Сами того не понимая вы перечисляете достоинства Эпл как кампания с точки зрения специалистов, которые посещают сайт О РЕКЛАМЕ и МАРКЕТИНГЕ))
Скажите, пожалуйста, в каком агентстве вы работаете? (так, чисто посмеяться)

Неизвестный 16.10.2020 в 13:28

Чего так триггернуло-то?) Я вроде про рекламу и не писал. Чего вы ее приплели. Я сказал, что самсунг продает больше телефонов в год. Это факт, который невозможно опровергнуть. И отдал должное прекрасному маркетингу Apple. Что вы у себя в голове вообразили - ваши личные проблемы. И, да, капслок - удел идиотов. В рекламе есть много всего: креатив, дизайн, съемки, соц сетки, контекст, блоггеры, медийка, разработка, тексты и т.п. ога. Вот в одном из этого - я. И чего это мне на составе не читать и не комментировать? В хорошем агентстве работаю, большом и известном. Посмеялся, спасибо.

Неизвестный 16.10.2020 в 14:33

Есть большая разница между понятиями "самая продаваемая модель телефона в мире" (по ссылке вообще статья с поставками, но не суть, спрос определяет предложение) и "apple лидер продаж". Так что совет про научиться читать - очень и очень годный :)
А еще если хочешь аргументированно спорить, то нужно не кидаться на первую попавшуюся ссылку и, сломя голову, постить "пруфы" (да, жидко было :)), а провести хотя бы небольшой анализ информации, ну и конечно вдумчиво прочитать. Да и вообще это хорошее качество для любого специалиста в любой сфере. Но это, получается, не про тебя.

Неизвестный 16.10.2020 в 15:21

завидовать не нужно))

Неизвестный 15.10.2020 в 13:00

Пока их тролят, они лидеры!

Неизвестный 15.10.2020 в 14:03

Это потому что у вас айфооона нет вот и беситесь

Неизвестный 15.10.2020 в 18:14

Посмотри графики мировых продаж для начала

Неизвестный 17.10.2020 в 20:42

про 60 герц особенно тупо. Достаточно взять в руки айфон и ванплюс - мыслей о герцах не будет точно. Мысли будут про мерседей в одной руке и хундай в другой.

точно сказано!

Неизвестный 15.10.2020 в 14:04

мерседей и хундец

Неизвестный 15.10.2020 в 18:13

вот, кстати, бред
утверждение верно для макбуков и других ноутов - вот там да, сразу ощущаешь разницу
а вот айфон начиная с 6ки это утратил, сейчас вот ничем не отличается от других флагманов

Неизвестный 16.10.2020 в 12:24

If you're that smart, where is your money? (c)

Неизвестный 15.10.2020 в 12:26

Деньги это не показатель большого ума, особенно когда тиктокер получает больше чем нобелевский лауреат)

Неизвестный 16.10.2020 в 20:29

Это же просто смартфон. Кто-то пользуется эплом, кто-то выбирает другие модели. Хорошо, когда есть выбор и конкуренция. Остальное - личное дело каждой свободной личности.

Неизвестный 15.10.2020 в 12:40

Эппл конечно хороший смартфон, но почему зарядки нет и наушников? ?в 11Pro были, а тут нету и не понятно почему он дороже тогда ?

Неизвестный 19.10.2020 в 12:15

Новости

Digital

Медиа

Креатив

Маркетинг

Бизнес

Общество

Спецпроекты

Sostav.Школа

Лекторий

Интервью

День рекламы в ритейле

Рейтинги рекламного рынка

Мнение рынка

Карьера

Фоторепортаж

Выбор редакции

Рейтинг медиаагентств 2024

ТОП-30 крупнейших рекламодателей России 2024

Подкасты

Видео

Реклама на сайте

Контакты

Гайдлайны

Каталог компаний

Рейтинги

Бизнес-блоги

Форум

Блоги

Sostav в соцсетях