Sostav.ru
Москва, ул. Полковая 3 стр.3, офис 120
© Sostav независимый проект брендингового агентства Depot
Использование опубликованных материалов доступно только при указании источника.

Дизайн сайта - Liqium

18+
05.12.2024 в 16:00

INHOUSE MEDIA: как мы цифровых аватаров создавали

ИИ-ведущие были почти неотличимы от реальных людей

Искусственный интеллект (ИИ) — мегатренд и буквально мастхэв если не для всех, то почти для всех контент-команд. При этом, как бы мы ни гнались за трендами, тестировать ИИ нужно ответственно и экологично. Заручившись этими принципами, в апреле 2024 года команда INHOUSE MEDIA начала готовиться к созданию цифровых аватаров для «Страны Девелопмент». Милана Шабаева, продюсер INHOUSE MEDIA рассказала, как происходил этот процесс.

Как всё начиналось

В апреле 2024 года к нам пришла Алена Пияшева — SMM-менеджер «Страны». Её интересовал конкретный вопрос: «Запускали ли мы цифровых аватаров?». Подобных кейсов у нас не было, о чём мы честно предупредили, но решительно настроились вписаться в этот эксперимент. До этого мы себе представляли именно цифровых персонажей, которые ведут свой блог в соцсетях (запрещённых и не только) и становятся амбассадорами больших брендов. Но аватары могут быть другими и решать совершенно разные задачи.

Цифровой аватар — это виртуальная 3D-модель человека или персонажа в Интернете. Аватар можно использовать для взаимодействия на различных онлайн-платформах и приложениях. Своих аватаров мы размещали в соцсетях.

Наша команда занялась оптимизацией бюджета и созданием коротких роликов с экспертной информацией. Результат превзошёл ожидания, мы добились весомых успехов: 10 аватаров и 293 тыс. 901 просмотр во всех соцсетях.

Сколько нам это стоило? Деньги, люди, время.

Весь проект обошёлся нам в 240 тыс. 546 ₽. В эту сумму вошли:

  • Съёмка сейлз-менеджеров — 60 тыс. ₽.
  • Консультация — 14 тыс. 200 ₽.
  • Оплата аккаунтов аватаров в HeyGen — $29 с доступом на месяц / $150 с комиссией.
  • Оплата голосового AI — $10.
  • Оплата команды пост-продакшена — 155 тыс. 460 ₽.

Как проходил процесс создания и запуска аватара

После консультации со Стасом, мы начали разработку ТЗ для правильного монтажа роликов. Спустя время, именно их мы загружали в HeyGen — нейросеть для обучения аватара вербальной и невербальной коммуникации со зрителем.

Была задача ускорить и финансово оптимизировать экспертный контент. Так как найти спикеров, собрать съёмочную команду, провести съёмку — долго и дорого. Хотелось найти вариант, как делать экспертный контент и так сильно не запариваться. Как вариант рассматривали: рисованных персонажей, анимацию или живых людей.

Алена Пияшева, SMM-менеджер «Страны Девелопмент»:

У нас было несколько вариантов экспертов в области создания AI-контента, чтобы назначить консультацию команде пост-продакшена. Лучше подготовиться и сократить количество неудачных моментов на пути эксперимента. Поэтому обратились к Стасу Шульгину, который на тот момент активно популяризировал работу с ИИ и конкретно через HeyGen. После встречи, ребята из INHOUSE взяли задачу в свои руки и началось самое интересное.

В HeyGen необходимо было загрузить чистовой ролик длинной до 5 минут. То есть видео не должно было быть склеенным, допускалось использование только одного плана — анфаса, разрешение и частота воспроизведения звука — исключительно высокого качества. Речь в ролике должна была быть чёткой и совпадать с артикуляцией губ аватара.

Многовато требований на этапе подготовки… Но результат обещал быть впечатляющим! Получившееся ТЗ мы отдали съёмочной команде из Тюмени.

Съёмку и монтаж осуществляли тюменские ребята из видеопродакшна BISMUTH.

Продюсер Иван Гулиев:

«Искусственный интеллект развивается очень быстро. И то, что ещё вчера казалось невозможным, сегодня уже становится реальностью. Круто, что есть такие компании, которые успешно внедряют ИИ в свою работу. В наши задачи входило снять несколько сотрудников компании, которые будут читать текст с суфлёра в течение 5 минут.

Мы снимали с нескольких ракурсов, а в качестве фона был выбран хромакей. Впоследствии это позволит располагать спикера в любом пространстве: от офиса до строительной площадки. Далее мы смонтировали видео для каждого спикера по отдельности и отдали команде INHOUSE MEDIA в реализацию.

29 мая мы опубликовали первый аватар — Анастасию. Скажем прямо, достаточно волновались перед публикацией: боялись, что зрители сразу распознают «искусственного человека». Но цифровая версия девушки смотрелась хорошо и с первого взгляда даже не было заметно, что есть погрешности в артикуляции и жестикуляции. А опрос коллег и знакомых показал, что вообще никто разницы не заметил:

Что сделали для такого результата?

Выше уже написали, что важно было правильно отснять и сделать качественный чистовой монтаж. Чтобы ИИ смог повторить пластику, а липсинк — синхронизация губ со звуком — выглядел качественно, надо было снять на видео людей определённым образом.

Так как мы изначально планировали выпускать ролики в вертикальном формате, то сразу же в таком разрешении 1080×1920 загружали и чистовые ролики. Необходимо было соблюдать следующие критерии:

  • Человеку, позирующему для аватара, надо было смотреть в камеру всё время.
  • Не изменять позицию в кадре. То есть у нас был доступен только один план и один ракурс.
  • Движения рук не выше плеч
  • Без монтажа — чтобы речь была целостной, без склеек
  • Выдерживать между предложениями паузы

Ещё надо было подружиться с интерфейсом HeyGen, чтобы понять, как он работает, какие опции на что влияют и так далее. С этим в нашей команде разбирались все внутри тестового оплаченного аккаунта. Но впоследствии полностью загружала сценарии и обучала аватара произношению наш дизайнер Ульяна.

Ульяна Быстрова, дизайнер и наш AI-тренер:

Несколько месяцев назад от клиента пришла задача на создание тематических видео с ведущим в кадре. Казалось бы — классика, но к решению задачи мы подошли необычно, а современно — использовали ИИ.

Сейчас есть достаточно много разных сервисов, которые создают видео на основе футажа. Мы решили использовать один из самых реалистичных — это HeyGen. Этот ИИ отлично копирует жесты, не ошибается в липсинке и хорошо дублирует оригинальный голос ведущего. В самой программе можно настроить темп речи, поработать с ударениями и произношением. Пару раз мы заменяли аудио HeyGen на генератор голоса Elevenlabs, чтобы добиться идеального голосового результата.

Лично я в восторге от этого опыта! Как и любому инструменту, мне пришлось поучиться управлять настройками, потыкать на кнопочки. А после того, как стало понятно, какие настройки за что отвечают, работать стало только в удовольствие. У нас получаются качественные ролики, которые при доработке видеомонтажером почти невозможно отличить от «настоящих». При этом времени на производство такого контента уходит в разы меньше, чем при натуральной съёмке. Вижу большие перспективы в использовании ИИ, он облегчает и ускоряет работу — то, что нужно в нашей высокоскоростной работе и кратких сроках.

Чтобы машина обучалась жестам, голосу и мимике настоящего человека, этому человеку необходимо было сначала самому загрузить готовый чистовой ролик, пройти проверку (верификацию) и подтвердить, что он загружает ролик со своим изображением.

Анастасия Еретенко, менеджер по продажам «Страны Девелопмент»:

К нам (сейлз-менеджерам) пришла Кристина Гатиятова, руководитель отдела контента, и попросила поучаствовать в съёмке для соцсетей. В офис приехала съёмочная группа, мы подготовились и во время мотора зачитывали текст с суфлёра. Спустя какое-то время подключились продюсеры из INHOUSE MEDIA. Мы зарегистрировали аккаунт на моё имя в HeyGen, я прошла верификацию и отдала доступ продюсерам.

Первый ролик с Настей получился без дополнений к видеоряду. Кроме субтитров мы ничего не добавляли. Дальше начали экспериментировать. В монтаже со следующими роликами добавляли футажи, а на длинном монологе склеивали разный план — от среднего к крупному и наоборот. Подбирали динамичную музыку и даже вставляли шутки:

На каждом этапе всегда было, что улучшать. Где-то аватар запинался, ставил неправильно ударения или пропускал паузы. Мы в режиме реального времени подбирали разные варианты, как сделать речь более естественной. Например, в первом ролике, где мы ссылаемся на сайт Дом.рф, аватару было сложно произнести это так, чтобы звучало естественно. В итоге у нас почти сработала одна комбинаций в сценарии: дом эр эф, домэрэф, дом.эрэф, дом.эр.эф.

Каких результатов достигли

Если сравнивать с экономической точки зрения, то, безусловно, реализация задач через цифровой аватар сильно оптимизировала ресурсы. В какую сумму обошлась бы съёмка 10 роликов с разными аватарами и с учётом, что всех сценариев сразу на руках не было? Предположим, что несколько сценариев записывает один аватар в течение съёмочного дня, это 60 000×4 = 240 000 ₽. Суммируем с пост-продакшеном, итого: 395 тыс. 460 ₽.

Как следствие, этот подход позволил нам оптимизировать и сам рабочий процесс. Мы проходим все те же этапы — разработка и согласования сценария, поиск подходящих дополнительных материалов, но минуем этап с продакшеном, переходя сразу к монтажу.

Команда проекта

Клиент: «Страна Девелопмент»

SMM-менеджер Страны: Алена Пияшева

Пред и пост-продакшн: INHOUSE MEDIA

Продюсер пост-продакшна: Милана Шабаева

Сценарий: Ксения Некипелова

Редакторы: Даша Нестерова и Антон Кусьнеж

Монтаж: Владислав Парёнкин

Дизайн: Ульяна Быстрова и Офелия Синдоян

Продакшн: BISMUTH

Продюсер продакшена: Иван Гулиев

Обсудить с другими читателями:
Ваш браузер устарел
На сайте Sostav.ru используются технологии, которые не доступны в вашем браузере, в связи с чем страница может отображаться некорректно.
Чтобы страница отображалась корректно, обновите ваш браузер.