Создание дипфейков (face-swapping, технология обмена изображений лиц) представляет собой синтез ИИ нескольких визуалов — машинный алгоритм генерирует новый контент из заданного набора. Раньше подобные эффекты были возможны только в кинематографе, сейчас они становятся универсальным инструментом в различных отраслях: от политических кампаний до индустрии медиа. Команда Deepcake рассказала, как данная технология может успешно реализовать себя в видеопродакшене рекламы.
Мы — стартап Deepcake, сообщество инженеров и креаторов, которое с помощью нейронных сетей преображает визуальный контент. Наши технологии способны создавать видео с теми, кого нельзя привезти на съемки, менять возраст персонажа за несколько часов на десятки лет, производить и редактировать ролики, взяв за основу всего одно фото и текст, а также наполнять коммуникацию с аудиторией персональными и эмоциональными сообщениями.
В 2020 году наша компания выпустила 20 проектов с генерацией лица на видео: делали дипфейк для рекламных и образовательных сегментов, работали над кинофильмом и бесконечно создавали цифровые копии знаменитостей. Нейронные сети и организованный процесс производства контента — это то, что сделало нашу работу востребованной и узнаваемой.
Компьютерная магия
Внедрение дипфейков можно сравнить с тем, как в коммерческие проекты интегрировали 3D — умели это делать только единицы, это стоило невероятных денег, но при этом кейсы вызывали всеобщий восторг. CG-художники выдвигали условия для работы продакшн-команды: в кадре актеру нужно было фокусировать взгляд на объекте, которого пока нет, нельзя выходить за границы кадра, зеленый экран должен сопровождать героя на протяжении всей сцены — вся команда испытывала трудности от такого длительного процесса.
Тридцать лет назад первые достижения в области компьютерной графики в тогда еще советских газетах называли «компьютерной магией». В то время не было не только разговора об использовании технологий в маркетинге и коммуникациях, — самой индустрии еще не существовало.
Вырезка из газеты о проведении конференции «Компьютерная графика в науке и искусстве» в 1991 году
Сегодня работами по созданию 3D-моделей в рекламе никого не удивишь. Кроме того, специалисты 3D-графики стали частью продакшн-команд наряду с кастинг-менеджерами, продюсерами, цветокорректорами, костюмерами и операторами. Они создают героев, объекты, а также исправляют ошибки, допущенные на съемке.
Брифинг команды
Есть три вещи, которые мы узнаем на старте у клиента: кого будем генерировать, откуда будем генерировать, куда будем генерировать. Проще говоря, чью «голову» (лицо, голос) мы возьмем и куда «перенесем». Исходя из ответа, начинаем формировать гипотезы по пайплайну генерации.
На самом деле никакого «переноса» не происходит — нейронные сети имитируют лицо, а не создают цифрового близнеца. Они изучают внешний вид «донора» — того, чей образ хотим воссоздать, и «дублера» — того, кого используем в качестве физической основы для генерации, а также условия среды — позу головы, мимику и эмоции, цвет лица, свет, тени и другие.
После анализа информации о том, как выглядят оба героя, алгоритм старается воспроизвести внешность актера, сохраняя мимику и другие характеристики видео с дублером, с некоторыми следами («артефактами») его образа. Поэтому основа качественной генерации — внимательно собранные данные (датасеты) с донором и дублером.
Датасет как исходный материал для старта генерации
Важными свойствами данных в наших кейсах является их качество (разрешение), разнообразие поз и эмоций, а также однородность с точки зрения цвета и света. Лучший способ собрать данные — это провести съемку с «актером» и «дублером», организовав нужные условия по свету, зафиксировав необходимые ракурсы в нужном разрешении. Достаточный датасет достигает 4−6 тысяч лиц.
Часто мы имеем дело со вторичными данными — кадрами кинохроники, которые могут страдать зернистостью, недостатком эмоций и ракурсов, а также иметь сложную колористику. Например, мы работали с советскими картинами 70-х годов — это было непросто.
Это требует особого внимания — мы применяем как инструменты нейросетевого улучшения (AI Video Enhancing), так и кропотливый ручной труд по выбору самых удачных кадров. Сама детекция лиц на видео происходит машинным способом.
Подбор актеров и подготовка съемок
Чтобы сгенерированное лицо было максимально достоверным, лучше выбрать дублера с похожим строением головы. Дублер — это реципиент, на чье лицо будет генерироваться лицо актера. Если пропорции головы будут отличаться, то нейронные сети будут искусственно вписывать лицо в слишком широкую или узкую рамку.
Мы обращаем внимание на скулы, форму черепа, подбородок и высоту лба. При генерации лица мы не переносим волосы и прическу. Для добавления сходства необходимо воссоздать прическу, расположение челки — как требует того сценарий. Волосы становятся частой проблемой в итоговых материалах, потому что им уделили мало внимания на съемках. Для отличного результата консультируем кастинг-менеджеров на этапе подбора дублеров.
Процесс адаптации кастинга, раскадровок, съемочного и монтажного плана под задачу генерации лица на видео — это новая веха не только в работе нашей команды, но и для продакшн-индустрии в целом. Чтобы качественно выполнить задачу в поставленные сроки мы создавали предварительную модель: микшированные копии лиц дублера и актера, которые в дальнейшем помогали быстрее сгенерировать героя для роликов.
На съемках нам важно контролировать повороты головы дублера — если он отвернется слишком сильно, нейронные сети не смогут задетектировать лицо, и кадр будет забракован. Когда мы обсуждали эту проблему на первых проектах, заказчики транслировали свою обеспокоенность: это урезает сюжет и возможности, и накладывает ограничения на поведение актера в кадре.
Наше присутствие на съемочной площадке дает возможность избегать сложностей при дальнейшей генерации лица. Мы влияем на все этапы — свет, повороты головы, мимику. В 2020 году мы удаленно подключались к плэйбэку и присутствовали на съемках, в режиме реального времени комментируя процесс для съемочной группы.
Итоговая генерация
Ключевое ограничение в работе рекламного продакшена — сложность генерации лица на крупных планах. Если лицо занимает больше шестой части кадра, то потребуется больше времени для детализации (морщины, направление взгляда, мимика). Если лицо слишком маленькое, то алгоритм сложнее распознает его контур. Для ускорения производства мы рекомендуем работать преимущественно со средними планами.
В зависимости от бюджета и возможностей клиента мы используем оборудование, которое больше подходит под проект — оно влияет на скорость генерации и итоговое качество. Видео в высоком разрешении мы обучаем за семь дней (до одной минуты контента).
В наших проектах в конце 2020 года с помощью самых мощных графических процессов (NVIDIA DGX A100) мы параллельно обучали 20 сцен, разбитых по однородным цветовым группам для повышения однородности результата и во избежание эффекта лица-маски. Мы называем этот этап «Face-swapping» — он занял у нас три недели.
Сейчас наша команда разрабатывает новый генератор, который позволит драматически ускорить процесс гиперреалистичного переноса до нескольких минут. Наши нейросети написаны на базе популярного фреймоворка PyTorch, что обеспечивает их адаптивность.
В работе с нейронными сетями мы уделяем большое внимание цветокоррекции — алгоритмы умеют самостоятельно «подкрашивать» обучаемые материалы, чтобы сгенерированное лицо могло выглядеть однородно.
В ручном режиме из-за агрессивной контрастности и перетянутой экспозиции на кадрах поверх имитированного лица могут появиться артефакты — приподнятая бровьили смещение двух половин лица. В результате долгих экспериментов мы проверили несколько гипотез, которые помогают решить эту проблему.
Как использовать дипфейк сегодня
Дипфейки как инновация уже создали несколько ярких прецедентов на коммерческом рынке, и пришло время их использовать регулярно и по назначению. Несмотря на то, что для ускорения процессов применения технологии нужен прорыв, сейчас мы уже можем направлять ресурсы нейронных сетей на решение текущих задач и формирование организационной структуры. Например, в разгар пандемии бренд Hulu использовал генерацию лиц, чтобы не собирать звезд спорта на одной площадке.
Или обсуждаемый кейс с «возрождением» Жоржа Милославского — о нем уже писал Sostav. Эти примеры доказывают возможность управлять временем и возволяют проводить съемки дистанционно.
Сметы на дипфейк-проекты уже не шокируют, а скорость реализации в разы превосходит аналогичные решения от CG, не уступая и даже превосходя их в реализме. В итоге все сложности, которые могут возникнуть на этапах их производства, уступают перед неограниченными возможностями для творчества и рациональным расходом медиаресурсов.