一秒把大象P轉(zhuǎn)身!清華校友論文引爆AI繪圖圈,Diffusion黯然失色
5月18日,一顆炸彈在AI繪圖圈炸響。
從此,AI可以精準修圖了,哪里不準修哪里,AIGC,已然到達了全新的里程碑!
這篇引爆繪圖圈的核彈級論文,名為「Drag Your GAN」,由MPII、MIT、賓大、谷歌等機構(gòu)的學(xué)者聯(lián)合發(fā)布。目前已被SIGGRAPH 2023錄用。
(資料圖)
而且因為太過火爆,這個項目一經(jīng)發(fā)布,網(wǎng)頁就經(jīng)常處于崩潰狀態(tài)。
項目地址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
顧名思義,通過DragGAN,就可以任意拖動圖像了,無論是對象的形狀、布局、姿態(tài)、表情、位置、大小,都可以做到精準控制。
只要拖拽動作,確定生成圖像的起點和終點,再根據(jù)對象的物理結(jié)構(gòu),用GAN生成在精細尺度上符合邏輯的圖像,一張?zhí)舨怀銎凭`的圖就生成了。
拍的照片表情不好?修!臉型不夠瘦?修!臉沖鏡頭的角度不對?修!
(簡直就是一個超強版的Photoshop)
輕輕一拖動,就能想把耷拉著的狗耳朵提起來,讓狗狗從站著變成趴下,以及讓狗狗瞬間張嘴微笑。
現(xiàn)在,甲方提出「讓大象轉(zhuǎn)個身」的要求,終于可以實現(xiàn)了。
所以,廣大修圖師的飯碗是要被端了?
從此,我們正式進入「有圖無真相」時代。
準備好,一大波演示來了
這種DragGAN可控圖像合成方法,具有廣泛的應(yīng)用場景,只有你想不到,沒有它做不到。
Midjourney、Stable Diffusion、Dalle-E等AI繪圖工具生成的圖像,都可以用DragGAN來微調(diào)細節(jié),生成任何想要的效果。
模特的姿勢可以隨意改變,短褲可以變成九分褲,短袖可以變長袖。
湖邊的樹可以瞬間長高,湖里的倒影也跟著一起改變。
原圖中的太陽沒露臉?無所謂,DragGAN會給你造個日出。
貓貓的正臉一下子變側(cè)臉,角度精細可調(diào)。
甚至連汽車也能一鍵「敞篷」。
不得不說,AI繪圖圈,真的太卷了。上一個工具還沒完全學(xué)會呢,下一個革命性產(chǎn)品就又來了。
有了DragGAN的加持,各種AI畫圖工具的「阿喀琉斯之踵」再也不是弱點。
并且,DragGAN在單顆3090顯卡上生成圖像,僅僅需要幾秒鐘。
可以想象,繪圖、動畫、電影、電視劇等領(lǐng)域,都將迎來大地震。
DragGAN看起來像Photoshop的Warp工具,但它的功能實現(xiàn)了核彈級的增強——它讓你不只是在像素周圍簡單地移動,而是使用AI來重新生成底層對象,甚至還能像3D一樣旋轉(zhuǎn)圖像。
研究者團隊指出,這項工作真正有趣的地方不一定是圖像處理本身,而是用戶界面。
我們早就能用GAN之類的AI工具來生成逼真的圖像,但缺乏足夠的靈活性和精度,無法得到我們想要的確切姿勢。
但DragGAN提供的,絕不是簡單地涂抹和糊化現(xiàn)有像素,而是重新生成主體。
正如研究者所寫:「你的方法可以產(chǎn)生幻覺,就像獅子嘴里的牙齒一樣,并且可以隨著物體的剛性而變形,就像馬腿的彎曲一樣?!?/p>
DragGAN的橫空出世表明,GAN模型開始模型了,或許它會比Diffusion模型(DALLE.2、Stable Diffusion和Midjourney)更具影響力。
此前,Diffusion模型一直在AI繪圖領(lǐng)域大受歡迎,但生成式對抗網(wǎng)絡(luò)GAN也引起了人們廣泛的興趣,Ian Goodfellow2017年提出GAN理論后,三年后它再次復(fù)興。
DragGAN:圖像處理新時代
在這項工作中,團隊研究了一種強大但還未被充分探索的控制GAN的方法——以交互的方式將圖像中任意一點精確「拖動」至目標點。
DragGAN主要包括以下兩個主要組成部分:
1. 基于特征的運動監(jiān)控,驅(qū)動操作點向目標位置移動
2. 一個新的點跟蹤方法,利用區(qū)分性的GAN特征持續(xù)定位操作點的位置
通過DragGAN,任何人都可以對像素進行精確的控制,進而編輯如動物、汽車、人類、風(fēng)景等多種類別的姿態(tài)、形狀、表情和布局。
由于這些操作在GAN的學(xué)習(xí)生成圖像流形上進行,因此它們傾向于生成逼真的輸出,即使在富有挑戰(zhàn)性的場景下也是如此,例如被遮擋的內(nèi)容和變形的圖像。
定性和定量的對比表明,DragGAN在圖像操作和點跟蹤任務(wù)中,都明顯優(yōu)于先前的方法。
拖拽編輯
在DragGAN的加持下,用戶只需要設(shè)置幾個操作點(紅點),目標點(藍點),以及可選的表示可移動區(qū)域的mask(亮區(qū))。然后,模型就會自動完成后續(xù)的圖像生成,
其中,動態(tài)監(jiān)控步驟會讓操作點(紅點)向目標點(藍點)移動,點追蹤步驟則通過更新操作點來追蹤圖像中的對象。此過程會一直持續(xù),直到操作點達到其相應(yīng)的目標點。
流程
具體來說,團隊通過在生成器的特征圖上的位移修補損失來實現(xiàn)動態(tài)監(jiān)控,并在相同的特征空間中通過最近鄰搜索進行點追蹤。
方法
值得注意的是,用戶可以通過添加mask的方式,來控制需要編輯的區(qū)域。
可以看到,當狗的頭部被mask時,在編輯后的圖像中,只有頭部發(fā)生了移動,而其他區(qū)域則并未發(fā)生變化。但如果沒有mask的話,整個狗的身體也會跟著移動。
這也顯示出,基于點的操作通常有多種可能的解決方案,而GAN會傾向于在其從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的圖像流形中找到最近的解決方案。
因此,mask功能可以幫助減少歧義并保持某些區(qū)域固定。
mask的效果
在真實圖像的編輯中,團隊應(yīng)用GAN反轉(zhuǎn)將其映射到StyleGAN的潛在空間,然后分別編輯姿勢、頭發(fā)、形狀和表情。
真實圖像的處理
到目前為止,團隊展示的都是基于「分布內(nèi)」的編輯,也就是使用訓(xùn)練數(shù)據(jù)集內(nèi)的圖像來實現(xiàn)編輯。
但DragGAN實際上具有強大的泛化能力,可以創(chuàng)建出超出訓(xùn)練圖像分布的圖像。比如,一個張得巨大的嘴,以及一個被極限放大的車輪。
在某些情況下,用戶可能希望始終保持圖像在訓(xùn)練分布中,并防止這種超出分布的情況發(fā)生。實現(xiàn)這一目標的方法可以是對潛在代碼添加額外的正則化,但這并不是本文討論的重點。
泛化能力
比較分析
首先,與UserControllableLT相比,DragGAN能夠編輯從輸入圖像中檢測到的特征點,并使其與從目標圖像中檢測到的特征點相匹配,而且誤差很小。
從下圖中可以看出,DragGAN正確地張開了照片中人物的嘴,并調(diào)整了下巴的形狀來匹配目標的臉型,而UserControllableLT未能做到這一點。
臉部特征點編輯
在DragGAN與RAFT、PIPs和無追蹤的定性比較中,可以看得,DragGAN可以比基線更準確地跟蹤操作點,進而能夠產(chǎn)生更精確的編輯。
定性比較
而在移動操作點(紅點)到目標點(藍點)的任務(wù)上,定性比較的結(jié)果顯示,DragGAN在各種數(shù)據(jù)集上都取得了比UserControllableLT更加自然和優(yōu)秀的效果。
定性比較
如表1所示,在不同的點數(shù)下,DragGAN都明顯優(yōu)于UserControllableLT。而且根據(jù)FID的得分,DragGAN還保留了更好的圖像質(zhì)量。
由于具有更強的跟蹤能力,DragGAN還實現(xiàn)了比RAFT和PIPs更精確的操縱。正如FID分數(shù)所顯示的,如果跟蹤不準確的話,很可能會造成編輯過度,從而降低圖像質(zhì)量。
雖然UserControllableLT的速度更快,但DragGAN在很大程度上提升了這項任務(wù)的上限,在保持相對較快的運行時間的同時,實現(xiàn)了更靠譜的編輯。
定量分析
結(jié)果討論
DragGAN是一種基于點的交互式圖像編輯方法,該方法利用預(yù)訓(xùn)練的GAN來合成圖像。其中,這些合成圖像不僅精確地遵循了用戶的輸入,而且還能保持在真實圖像的流形上。
此外,與之前的方法相比,團隊提出的DragGAN還是一個通用框架,并不依賴于特定領(lǐng)域的建?;蜉o助網(wǎng)絡(luò)。
這是通過兩個新穎的組件來實現(xiàn)的,它們都是利用GAN的中間特征圖的辨別質(zhì)量,來生成像素精確的圖像形變和交互性能:
1. 一個優(yōu)化潛在代碼的方法,逐步將多個操作點移向目標位置
2. 一個點追蹤程序,真實地追蹤操作點的軌跡
總結(jié)來說,全新的DragGAN在基于GAN的編輯方面要優(yōu)于現(xiàn)有的技術(shù),并為使用生成式先驗的強大圖像編輯開辟了新的方向。
至于未來的工作,團隊計劃將基于點的編輯擴展到3D生成模型。
模型局限
盡管具有一定的泛化能力,但DragGAN的編輯質(zhì)量仍受訓(xùn)練數(shù)據(jù)多樣性的影響。
如下圖(a)所示,創(chuàng)建一個訓(xùn)練分布外的人體姿勢,可能會生成錯誤的圖像
此外,如圖(b)(c)所示,在無紋理區(qū)域的操作點在追蹤時有時會有更多的漂移。
因此,團隊建議盡量去選擇紋理豐富的操作點。
作者介紹
論文一作Xingang Pan,即將上任南洋理工大學(xué)計算機科學(xué)與工程學(xué)院MMLab@NTU的助理教授(2023年6月)。
目前,他是馬克斯·普朗克計算機科學(xué)研究所的博士后研究員,由Christian Theobalt教授指導(dǎo)。
在此之前,他于2016年在清華大學(xué)獲得學(xué)士學(xué)位,并2021年在香港中文大學(xué)多媒體實驗室獲得博士學(xué)位,導(dǎo)師是湯曉鷗教授。
Lingjie Liu
Lingjie Liu是賓夕法尼亞大學(xué)計算機和信息科學(xué)系的Aravind K. Joshi助理教授,負責賓大計算機圖形實驗室,同時也是通用機器人、自動化、傳感和感知(GRASP)實驗室的成員。
在此之前,她是馬克斯·普朗克計算機科學(xué)研究所的Lise Meitner博士后研究人員。并于2019年在香港大學(xué)獲得博士學(xué)位。
參考資料:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
作者:新智元,來源:新智元,原文標題:《GAN逆襲歸來!清華校友論文引爆AI繪圖圈,一秒把大象P轉(zhuǎn)身,Diffusion黯然失色》
風(fēng)險提示及免責條款 市場有風(fēng)險,投資需謹慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責任自負。關(guān)鍵詞: