Программное обеспечение на основе ИИ смогло сгенерировать высоко реалистичные поддельные видео сюжеты с бывшим президентом Бараком Обамой, используя для этого имеющиеся реальные аудио и видео клипы.
Специалисты отмечают, что подобная технология способна помочь в создании цифровых моделей человека для приложений виртуальной или дополненной реальности.
Ученые из Вашингтонского университета ранее заявили о возможности генерировать цифровых двойников любого человека, например, анализируя собранные в интернете изображения знаменитостей. Таким образом, впоследствии можно будет относительно легко создавать такого рода модели человека, когда в интернете есть неисчислимое количество цифровых фотографий.
Исследователи выбрали Обаму для своей последней работы, потому что в сети имеется множество видео высокой четкости с его участием. В распоряжении исследовательской группы имеется нейронная сеть, анализирующая миллионы кадров видео, чтобы определить, как перемещаются элементы лица Обамы, когда он говорит: его губы, зубы и морщины вокруг рта и подбородка.
Компоненты искусственной нейронной сети, известные как искусственные нейроны, получают данные и совместно работают над решением проблем, включая идентификацию лиц или распознавание речи. Затем нейронная сеть может изменить схему связей между этими нейронами, чтобы изменить способ взаимодействия, и система снова пытается решить поставленную задачу. Со временем нейронная сеть узнает, какие схемы лучше всего подходят для вычислительных решений.
В новом исследовании нейронная сеть выяснила соответствие формы рта с различными звуками. Исследователи взяли аудиоклипы и наложили их поверх оригинальных звуковых файлов в видеоклипах. Затем они взяли формы для губ, которые соответствовали новым аудиоклипам, и смешали их с видео. По сути, исследователи синтезировали видеоролики, в которых слова Обамы были синхронизированы с движениями губ в выступлениях десятилетней давности.
Аналогичные исследования прежде включали съемку людей, которые многократно повторяли предложения, чтобы сопоставить формы губ для различных звуков, что является дорогим и утомительным занятием, к тому же требующим много времени. Новая технология позволяет это делать на основе миллионов часов видео, которые уже есть в интернете.
Одним из потенциальных применений для этой разработки является совершенствование процесса трансляции видеоконференций, говорит соавтор исследования Айра Кемельмахер-Шлизерман из Вашингтонского университета. Они часто страдают от задержки звука в связи с недостаточной пропускной способностью каналов связи. Поэтому в будущем можно было бы передавать лишь звук, используя программное обеспечение для восстановления изображения лица разговаривающего человека. Люди смогут также разговаривать с цифровыми копиями человека в приложениях виртуальной или дополненной реальности.
Однако исследователи отмечают, что их видеоролики в настоящее время не всегда идеальны. Например, когда Обама отвернул лицо от камеры, несовершенное моделирование лица могло привести к тому, что части рта накладывались вне лица и на задний план. Кроме того, они пока не могут смоделировать эмоции, и поэтому выражение лица Обамы может показаться слишком серьезным для повседневных выступлений или слишком счастливым для серьезных речей.
Однако такие поддельные видеоклипы, скорее всего, скоро появятся. Но исследователи также предлагают и способы выявления видео фальшивок в будущем.
Комментарии
(0) Добавить комментарий