Microsoft розробляє інструмент ШІ для перетворення фотографій
Дослідницький центр Microsoft в Азії представив новий експериментальний інструмент штучного інтелекту під назвою VASA-1. Він здатний перетворити статичне зображення людини або навіть її малюнок, разом з аудіофайлом, на реалістичне відео, де особа розмовляє або співає в режимі реального часу. ШІ може генерувати вирази обличчя і рухи голови, а також точно синхронізувати рухи губ з промовою або піснею. На сторінці проекту дослідники розмістили безліч прикладів, якість яких настільки велика, що може ввести в оману щодо їхньої автентичності.
Проте, при уважному розгляді рухи губ і голови в прикладах можуть здатися дещо механічними і несинхронізованими. Існує ризик зловживання технологією для швидкого створення фальсифікованих відео реальних людей. Самі дослідники усвідомлюють цю проблему і вирішили не випускати онлайн-демонстрації, API, продукти, додаткові деталі реалізації або будь-які пов'язані пропозиції доти, доки не переконаються, що технологію використовуватимуть відповідально та згідно з відповідними нормами. Однак вони не уточнили, чи планують впровадження певних заходів безпеки для запобігання використанню технології з метою створення порнографії або кампаній дезінформації.
Незважаючи на потенційні ризики зловживання, дослідники бачать у своїй технології великий потенціал для застосування. Вони стверджують, що вона може сприяти підвищенню освітньої рівності та поліпшенню доступності для людей з комунікативними проблемами, можливо, шляхом надання їм доступу до аватара, який може спілкуватися від їхнього імені. Також технологія може надавати терапевтичну підтримку тим, хто цього потребує, припускаючи використання VASA-1 у програмах, що надають доступ до штучних персонажів для спілкування.
Згідно з опублікованою статтею, VASA-1 був навчений на наборі даних VoxCeleb2, що містить понад 1 мільйон висловлювань 6,112 знаменитостей, витягнутих із відео на YouTube. Незважаючи на те, що інструмент було навчено на реальних обличчях, він також працює з художніми зображеннями, наприклад, із "Моною Лізою", до якої дослідники кумедно додали аудіофайл вірусного виконання Енн Гетевей пісні Lil Wayne "Paparazzi".