Владислав Кузнецов
Владислав Кузнецов Перейти к материалам
7 месяцев назад

DragGAN — ИИ-модель, которая умеет менять угол и позу людей и животных на фото, как будто они в 3D

Исследователи из Института Макса Планка создали ИИ-модель DragGAN, которая умеет манипулировать изображениями почти в режиме реального времени. Инструмент напоминает функцию «Искривление» в Photoshop, но работает гораздо лучше, так как пользователь не просто тянет пиксели, а использует искусственный интеллект для повторного создания базового объекта. Кроме того он позволяет вращать изображения, как будто они в 3D-формате.

DragGAN может не только менять размеры объекта на изображении или превращать улыбку в серьезное выражение лица одним кликом мыши, но и поворачивать его таким образом, как если бы это была 3D-модель. Например, можно изменить направление лица человека. Ниже представлены видео с сайта исследовательской группы. Полный текст исследовательской работы можно прочитать на сайте arXiv.

Как отмечает команда разработчиков, то, что действительно интересно в этой работе, это не манипуляция изображениями как таковая, а пользовательский интерфейс. Мы уже давно можем использовать инструменты ИИ, такие как GANs, для создания реалистичных изображений, но большинству методов не хватает гибкости и точности. Вы можете сказать генератору изображений ИИ: «Сделай изображение льва, наблюдающего за саванной», и получите его, но может оказаться, что лев сидит не совсем в той позе, которая вам нужна.

DragGAN предлагает решение этой проблемы. Интерфейс такой же, как и в обычных редакторах изображений, но вместо того, чтобы просто сдвигать существующие пиксели, модель создаёт объект заново. Исследователи пишут: «Наш подход не только может создавать окклюзию объектов, но и может деформировать их в соответствии с жёсткостью, например, при сгибании ноги лошади».

Пока это только демонстрация, которая не даёт оценить технологию полностью, но это ещё один пример того, как сделать манипуляции с изображениями с помощью ИИ более доступными.