Искусство слияния голосов: технология липсинка как новый инструмент в создании аудиоколлабораций

14 Ноя 2023 Время чтения 7 мин 7277

Согласно большинству исследований, 10–12% людей во всём мире воспринимают информацию преимущественно через слух. При этом визуальный контент в современном медиапространстве — это главным образом видеоролики, которые без звука далеко не так увлекательны. Ключевые ИИ-технологии в этой сфере, которые сегодня широко распространены и известны почти всем, — липсинк и войс-клонинг.

Липсинк

Липсинк (от английского lip sync, сокращение от lip synchronization) — это процесс согласования движений губ людей или персонажей анимации со звуковым содержанием, таким как речь, песни или музыка. Цель липсинка — создать иллюзию того, что произносимые слова или песни синхронизированы с движениями губ персонажей на экране или исполнителей в видеоролике. Изначально липсинк использовался в мюзиклах, где исполнители должны были одновременно танцевать и петь.

Липсинк широкой аудитории стал известен совсем недавно, после шумихи вокруг нейросети HeyGen, которая не только переводит текст на несколько языков, имитируя голос, но и адаптирует движение губ. Неподготовленного пользователя поражал результат: если ранее он не видел оригинала, то догадаться об иноязычном происхождении видео практически невозможно. Естественно, интернет сразу же захлестнула волна переозвученных мемов.

Масла в огонь разговоров о технологии подлил недавний скандал с актрисой дубляжа Алёной Андроновой, которая озвучила большой массив текста для коммерческого заказчика, а в итоге услышала себя в порно и лишилась части работы.

Позже эту технику стали применять в озвучивании иностранных фильмов: звуковая дорожка с озвучкой на «родном» языке накладывалась поверх оригинального материала. Относительно недавно завирусился фрагмент из фильма «Вышка», демонстрирующий липсинк.

С развитием музыкальных клипов и понятия «фонограмма» липсинк широко распространился. Особенно популярен он стал после появления платформы TikTok. Любители и знаменитости выкладывают ролики с липсинками под фонограмму, делая музыкальный контент ярче и увлекательнее.

Но потенциал таких ИИ-решений существенно шире. Липсинк может быть использован в образовательных целях, для мгновенного перевода видео на любой нужный язык с сохранением интонации и голоса. Не за горами создание интерактивных образовательных платформ с липсинк-интерфейсами. Учителя и обучающие программы могут использовать липсинк для создания виртуальных учителей, которые будут обучать студентов, общаться с ними и даже помогать в выполнении учебных заданий.

Опять же, генерация образа персонажа может происходить автоматически. Нас ждёт создание интерактивных мультимедийных выставок и музеев, где посетители могут просматривать экспонаты и одновременно слушать рассказы персонажей, чьё движение губ синхронизировано с рассказом. Очевидна разработка мультимедийных учебников с анимацией и липсинком, где учащиеся смогут видеть и слышать правильное произношение слов и фраз в контексте, что поможет им лучше усваивать материал.

Озвучить текст голосом знаменитого актёра или героя игры сейчас может практически любой. В Телеграме существует множество ботов, которые позволяют сделать это буквально за пару минут. Делается это быстро и, скажем честно, далеко не всегда легально. Обучение искусственного интеллекта определённому голосу не является сложной задачей, но требует определённой технической компетенции. Для этого необходимо собрать или записать качественный аудиоматериал с целевым голосом продолжительностью примерно от 30 до 60 минут. Затем проводится обработка аудиоматериала для устранения шумов и других артефактов, которые могут присутствовать в записи, и эти данные подаются на обучение нейронной сети. Время обучения модели может варьироваться в зависимости от конкретного голоса. В целом за один-два дня можно получить неплохую модель, способную изменить голос одного человека на целевой. А далее открывается огромный спектр возможностей.

Возможности

Наиболее очевидна кастомизация персонализированных всем нам уже хорошо известных голосовых ассистентов. Алиса, Маруся и Олег заговорят любым голосом на ваше усмотрение. Естественно, уже сейчас с помощью ИИ максимально автоматизирован обзвон и клиентская поддержка — большинство банков и спамеров говорят с нами с помощью грамотно настроенного робота.

Ещё не так широко распространены данные технологии для создания контента. В ближайшем будущем голосовой клонинг будет широко использоваться для озвучки мультфильмов, аудиокниг, игр, видеороликов, рекламных материалов и других мультимедийных проектов. В игровой индустрии технологии клонирования голоса вообще очень перспективны и могут помочь создавать персонажей с уникальными голосами и поведением, чтобы сделать игровой опыт более увлекательным.

Соединение нескольких технологий, например дипфейка и войс-клонинга или 3D-аватара и войс-клонинга, изменит создание интерактивных образовательных материалов с участием виртуальных преподавателей, что откроет новую эпоху в образовании. Использование голосовых клонов для архивации и воспроизведения редких или уникальных аудиозаписей обеспечит сохранность и доступность исторических данных. Мультимедийные гайды и обучающие материалы с голосовыми инструкциями и комментариями сделают процесс обучения более увлекательным и понятным. Технологии клонирования голоса могут быть использованы в инклюзии для создания уникальных голосовых моделей для людей с нарушениями речи, чтобы позволить им общаться более ясно и эффективно.

Здесь мог бы быть большой абзац о мошеннических способах использования указанных технологий, но этот материал выложу позже.

Больше интересного в моём канале Полезный Парфун, подписывайтесь!

Категории: Digital (web-дизайн, интернет-реклама и продвижение, интернет-сообщества и блоги, интернет-коммуникации, мобильный маркетинг, реклама на цифровых экранах)

Теги: бизнес маркетинг нейросети нейросеть