精彩看點(diǎn):「拖拽」就能實(shí)現(xiàn)精準(zhǔn)P圖的DragGAN,論文作者親自揭秘技術(shù)了
2023-06-22 16:54:41 來源 : 機(jī)器之心
(相關(guān)資料圖)
在圖像生成領(lǐng)域,以 Stable Diffusion 為代表的擴(kuò)散模型已然成為當(dāng)前占據(jù)主導(dǎo)地位的范式。但擴(kuò)散模型依賴迭代推理,雖然此方法可以實(shí)現(xiàn)具有簡單目標(biāo)的穩(wěn)定訓(xùn)練,但推理過程需要高昂的計(jì)算成本。 在 Stable Diffusion 之前,生成對抗網(wǎng)絡(luò)(GAN)是圖像生成模型中常用的基礎(chǔ)架構(gòu)。相比于擴(kuò)散模型,GAN 通過單個前向傳遞生成圖像,因此本質(zhì)上是更高效的。但由于訓(xùn)練過程的不穩(wěn)定性,擴(kuò)展 GAN 需要仔細(xì)調(diào)整網(wǎng)絡(luò)架構(gòu)和訓(xùn)練因素。因此,GAN 方法很難擴(kuò)展到非常復(fù)雜的數(shù)據(jù)集上,這是 GAN 式微的原因之一。 當(dāng)前,GAN 主要是通過手動注釋訓(xùn)練數(shù)據(jù)或先驗(yàn) 3D 模型來保證其可控性,這通常缺乏靈活性、精確性和通用性。然而,一些研究者看重 GAN 在圖像生成上的高效性,做出了許多改進(jìn) GAN 的嘗試。 其中,來自馬克斯普朗克計(jì)算機(jī)科學(xué)研究所、MIT CSAIL 和谷歌等機(jī)構(gòu)的研究者們提出了一種強(qiáng)大的控制 GANs 的方式,即以用戶交互的方式拖動圖像的任何關(guān)鍵點(diǎn)以精確到達(dá)目標(biāo)點(diǎn)。 為了實(shí)現(xiàn)這一點(diǎn),該研究提出了 DragGAN,它包含兩個主要組成部分:1)基于特征的運(yùn)動監(jiān)督,用于驅(qū)動關(guān)鍵點(diǎn)向目標(biāo)位置移動;2)一種新的點(diǎn)追蹤方法,利用 GAN 的特征來定位關(guān)鍵點(diǎn)的位置。 通過 DragGAN,任何人都可以精確控制像素的移動位置來變形圖像,從而操控各種空間屬性,如動物、汽車、人類、風(fēng)景等的姿態(tài)、形狀、表情和布局。由于這些操控在 GAN 的生成圖像流形上進(jìn)行,因此 DragGAN 可以生成被遮擋的內(nèi)容和以及保證物體的形變符合物體的結(jié)構(gòu)。定性和定量比較都表明,DragGAN 在圖像操控和點(diǎn)追蹤任務(wù)上優(yōu)于先前的方法。此外,該研究還展示了通過 GAN 重建操控真實(shí)圖像的例子。 為了讓大家更好的了解這一研究,機(jī)器之心最新一期線上分享邀請到了 DragGAN 論文第一作者潘新鋼,通過本次分享,大家可以更深入的了解這一項(xiàng)研究。 分享主題:Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold嘉賓簡介:潘新鋼是南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院助理教授。此前他在馬克斯普朗克計(jì)算機(jī)科學(xué)研究所從事博士后研究。他于清華大學(xué)獲得學(xué)士學(xué)位,于香港中文大學(xué) MMLAB 獲得博士學(xué)位,師從湯曉鷗教授。他的主要研究方向是生成式 AI。 分享摘要:這次分享將主要介紹 DragGAN,一種新的圖像編輯方法。通過 DragGAN,用戶可以通過交互的方式拖動 GAN 所生成的圖像的任何關(guān)鍵點(diǎn)以精確到達(dá)目標(biāo)點(diǎn),從而實(shí)現(xiàn)對各種空間屬性如姿態(tài)、形狀、表情和布局等的操控。 項(xiàng)目主頁鏈接:/projects/DragGAN/ 直播間: 關(guān)注機(jī)器之心機(jī)動組視頻號,立即預(yù)約直播。 交流群:本次直播設(shè)有 QA 環(huán)節(jié),歡迎加入本次直播交流群探討交流。 關(guān)鍵詞: