МИД обратился к находящимся в Грузии украинцам
Microsoft розробляє інструмент ШІ для перетворення фотографій

Microsoft розробляє інструмент ШІ для перетворення фотографій

Дослідницький центр Microsoft в Азії представив новий експериментальний інструмент штучного інтелекту під назвою VASA-1. Він здатний перетворити статичне зображення людини або навіть її малюнок, разом з аудіофайлом, на реалістичне відео, де особа розмовляє або співає в режимі реального часу. ШІ може генерувати вирази обличчя і рухи голови, а також точно синхронізувати рухи губ з промовою або піснею. На сторінці проекту дослідники розмістили безліч прикладів, якість яких настільки велика, що може ввести в оману щодо їхньої автентичності.

Проте, при уважному розгляді рухи губ і голови в прикладах можуть здатися дещо механічними і несинхронізованими. Існує ризик зловживання технологією для швидкого створення фальсифікованих відео реальних людей. Самі дослідники усвідомлюють цю проблему і вирішили не випускати онлайн-демонстрації, API, продукти, додаткові деталі реалізації або будь-які пов'язані пропозиції доти, доки не переконаються, що технологію використовуватимуть відповідально та згідно з відповідними нормами. Однак вони не уточнили, чи планують впровадження певних заходів безпеки для запобігання використанню технології з метою створення порнографії або кампаній дезінформації.

Незважаючи на потенційні ризики зловживання, дослідники бачать у своїй технології великий потенціал для застосування. Вони стверджують, що вона може сприяти підвищенню освітньої рівності та поліпшенню доступності для людей з комунікативними проблемами, можливо, шляхом надання їм доступу до аватара, який може спілкуватися від їхнього імені. Також технологія може надавати терапевтичну підтримку тим, хто цього потребує, припускаючи використання VASA-1 у програмах, що надають доступ до штучних персонажів для спілкування.

Згідно з опублікованою статтею, VASA-1 був навчений на наборі даних VoxCeleb2, що містить понад 1 мільйон висловлювань 6,112 знаменитостей, витягнутих із відео на YouTube. Незважаючи на те, що інструмент було навчено на реальних обличчях, він також працює з художніми зображеннями, наприклад, із "Моною Лізою", до якої дослідники кумедно додали аудіофайл вірусного виконання Енн Гетевей пісні Lil Wayne "Paparazzi".
 

ПОДЕЛИТЬСЯ
ВСЕ ПО ТЕМЕ
КОММЕНТАРИИ

НОВОСТИ ПАРТНЕРОВ
ЗНАКОМСТВА
МЫ НА FACEBOOK