Microsoft разрабатывает инструмент ИИ для преобразования фотографий

20.04.2024 20:15 Катя Шульц

Исследовательский центр Microsoft в Азии представил новый экспериментальный инструмент искусственного интеллекта под названием VASA-1. Он способен превратить статичное изображение человека или даже его рисунок, вместе с аудиофайлом, в реалистичное видео, где лицо разговаривает или поет в режиме реального времени. ИИ может генерировать выражения лица и движения головы, а также точно синхронизировать движения губ с речью или песней. На странице проекта исследователи разместили множество примеров, качество которых настолько велико, что может ввести в заблуждение относительно их подлинности.

Тем не менее, при внимательном рассмотрении движения губ и головы в примерах могут показаться несколько механическими и несинхронизированными. Существует риск злоупотребления технологией для быстрого создания фальсифицированных видео реальных людей. Сами исследователи осознают эту проблему и решили не выпускать онлайн-демонстрации, API, продукты, дополнительные детали реализации или любые связанные предложения до тех пор, пока не убедятся, что технология будет использоваться ответственно и в соответствии с соответствующими нормами. Однако они не уточнили, планируют ли внедрение определенных мер безопасности для предотвращения использования технологии с целью создания порнографии или кампаний дезинформации.

Несмотря на потенциальные риски злоупотребления, исследователи видят в своей технологии большой потенциал для применения. Они утверждают, что она может способствовать повышению образовательного равенства и улучшению доступности для людей с коммуникативными проблемами, возможно, путем предоставления им доступа к аватару, который может общаться от их имени. Также технология может оказывать терапевтическую поддержку нуждающимся, предполагая использование VASA-1 в программах, предоставляющих доступ к искусственным персонажам для общения.

Согласно опубликованной статье, VASA-1 был обучен на наборе данных VoxCeleb2, содержащем более 1 миллиона высказываний 6,112 знаменитостей, извлеченных из видео на YouTube. Несмотря на то что инструмент был обучен на реальных лицах, он также работает с художественными изображениями, например, с "Моной Лизой", к которой исследователи забавно добавили аудиофайл вирусного исполнения Энн Хэтэуэй песни Lil Wayne "Paparazzi”.

Microsoft разрабатывает инструмент ИИ для преобразования фотографий

ПОДЕЛИТЬСЯ

ВСЕ ПО ТЕМЕ

КОММЕНТАРИИ

ВСЕ за 24 часа

Лента новостей

НОВОСТИ ПАРТНЕРОВ

ЗНАКОМСТВА

МЫ НА FACEBOOK

Опросы