Microsoft разрабатывает инструмент ИИ для преобразования фотографий
Исследовательский центр Microsoft в Азии представил новый экспериментальный инструмент искусственного интеллекта под названием VASA-1. Он способен превратить статичное изображение человека или даже его рисунок, вместе с аудиофайлом, в реалистичное видео, где лицо разговаривает или поет в режиме реального времени. ИИ может генерировать выражения лица и движения головы, а также точно синхронизировать движения губ с речью или песней. На странице проекта исследователи разместили множество примеров, качество которых настолько велико, что может ввести в заблуждение относительно их подлинности.
Тем не менее, при внимательном рассмотрении движения губ и головы в примерах могут показаться несколько механическими и несинхронизированными. Существует риск злоупотребления технологией для быстрого создания фальсифицированных видео реальных людей. Сами исследователи осознают эту проблему и решили не выпускать онлайн-демонстрации, API, продукты, дополнительные детали реализации или любые связанные предложения до тех пор, пока не убедятся, что технология будет использоваться ответственно и в соответствии с соответствующими нормами. Однако они не уточнили, планируют ли внедрение определенных мер безопасности для предотвращения использования технологии с целью создания порнографии или кампаний дезинформации.
Несмотря на потенциальные риски злоупотребления, исследователи видят в своей технологии большой потенциал для применения. Они утверждают, что она может способствовать повышению образовательного равенства и улучшению доступности для людей с коммуникативными проблемами, возможно, путем предоставления им доступа к аватару, который может общаться от их имени. Также технология может оказывать терапевтическую поддержку нуждающимся, предполагая использование VASA-1 в программах, предоставляющих доступ к искусственным персонажам для общения.
Согласно опубликованной статье, VASA-1 был обучен на наборе данных VoxCeleb2, содержащем более 1 миллиона высказываний 6,112 знаменитостей, извлеченных из видео на YouTube. Несмотря на то что инструмент был обучен на реальных лицах, он также работает с художественными изображениями, например, с "Моной Лизой", к которой исследователи забавно добавили аудиофайл вирусного исполнения Энн Хэтэуэй песни Lil Wayne "Paparazzi”.