Microsoft розробляє інструмент ШІ для перетворення фотографій

20.04.2024 20:15 MIGnews.com

Дослідницький центр Microsoft в Азії представив новий експериментальний інструмент штучного інтелекту під назвою VASA-1. Він здатний перетворити статичне зображення людини або навіть її малюнок, разом з аудіофайлом, на реалістичне відео, де особа розмовляє або співає в режимі реального часу. ШІ може генерувати вирази обличчя і рухи голови, а також точно синхронізувати рухи губ з промовою або піснею. На сторінці проекту дослідники розмістили безліч прикладів, якість яких настільки велика, що може ввести в оману щодо їхньої автентичності.

Проте, при уважному розгляді рухи губ і голови в прикладах можуть здатися дещо механічними і несинхронізованими. Існує ризик зловживання технологією для швидкого створення фальсифікованих відео реальних людей. Самі дослідники усвідомлюють цю проблему і вирішили не випускати онлайн-демонстрації, API, продукти, додаткові деталі реалізації або будь-які пов'язані пропозиції доти, доки не переконаються, що технологію використовуватимуть відповідально та згідно з відповідними нормами. Однак вони не уточнили, чи планують впровадження певних заходів безпеки для запобігання використанню технології з метою створення порнографії або кампаній дезінформації.

Незважаючи на потенційні ризики зловживання, дослідники бачать у своїй технології великий потенціал для застосування. Вони стверджують, що вона може сприяти підвищенню освітньої рівності та поліпшенню доступності для людей з комунікативними проблемами, можливо, шляхом надання їм доступу до аватара, який може спілкуватися від їхнього імені. Також технологія може надавати терапевтичну підтримку тим, хто цього потребує, припускаючи використання VASA-1 у програмах, що надають доступ до штучних персонажів для спілкування.

Згідно з опублікованою статтею, VASA-1 був навчений на наборі даних VoxCeleb2, що містить понад 1 мільйон висловлювань 6,112 знаменитостей, витягнутих із відео на YouTube. Незважаючи на те, що інструмент було навчено на реальних обличчях, він також працює з художніми зображеннями, наприклад, із "Моною Лізою", до якої дослідники кумедно додали аудіофайл вірусного виконання Енн Гетевей пісні Lil Wayne "Paparazzi".

Microsoft розробляє інструмент ШІ для перетворення фотографій

ПОДЕЛИТЬСЯ

ВСЕ ПО ТЕМЕ

КОММЕНТАРИИ

ВСЕ за 24 часа

Лента новостей

НОВОСТИ ПАРТНЕРОВ

ЗНАКОМСТВА

МЫ НА FACEBOOK