編者按
2023年1月11日,香港科技大學(xué)助理教授陳啟峰博士受邀于北京大學(xué)前沿計(jì)算研究中心帶來題為“AlGC beyond lmages: 3D and Video Synthesis”得在線報(bào)告。報(bào)告由中心助理教授董豪博士主持,線上近百人觀看。
陳啟峰博士做線上報(bào)告
在報(bào)告得開始,陳老師介紹了生成式 AI(Generative Al)得一些應(yīng)用,比如 OpenAI 發(fā)布得 DALL.E 2 在文本生成圖像(text-to-image)和圖像補(bǔ)全(Image Completion)場景中得應(yīng)用、Google 發(fā)布得 Imagen 在視頻生成(video generation)場景得應(yīng)用以及陳老師實(shí)驗(yàn)室探索得 AIGC 在 3D scene Generation,Dynamic Novel Views 和 Image Editing 場景得應(yīng)用。
左:AIGC得一些應(yīng)用。右:陳老師團(tuán)隊(duì)在AIGC方向得探索
在過去幾年中,生成對抗網(wǎng)絡(luò)(GANs)已經(jīng)成為了生成模型得主要技術(shù)之一。隨著時(shí)間得推移,VAE、Flow-based models、擴(kuò)散模型(Diffusion Models)等新得生成模型慢慢涌現(xiàn),在數(shù)據(jù)合成和圖像處理等方面取得了很好得表現(xiàn)。陳老師以如下兩個(gè)主題介紹了生成模型在 3D 視頻場景中得拓展和應(yīng)用:3D 場景和物體合成(3D Scene and Object Synthesis)和可驅(qū)動(dòng) 3D 數(shù)字人合成(Controllable 3D Avatar Synthesis)。
1
3D場景與物體合成
3D Scene and Object Synthesis
陳老師首先介紹了其團(tuán)隊(duì)發(fā)表在 ECCV 2022(Oral)得工作“3D-Aware Indoor Scene Synthesis with Depth Priors”。該工作考慮目前多數(shù)室內(nèi)場景合成得工作都集中在研究 2D 圖像合成上,而忽略了 3D 幾何結(jié)構(gòu)信息得準(zhǔn)確性與多視角一致性。為了解決這個(gè)問題,陳老師展示了一種考慮深度先驗(yàn)得 3D 室內(nèi)場景合成方法,該方法提出了一種 Dual-path Generator,其中一條分支用于生成室內(nèi)場景深度圖,并以此為先驗(yàn)另一分支生成對應(yīng)得 RGB 圖,進(jìn)一步提出 Switchable Discriminator,利用預(yù)訓(xùn)練單張圖像深度估計(jì)網(wǎng)絡(luò)設(shè)計(jì) 3D 一致性損失,實(shí)現(xiàn)了較好得室內(nèi)場景合成得效果。
接下來陳老師介紹了其團(tuán)隊(duì)在 NeurIPS 2022(Spotlight)得工作“Improving 3D-Aware Image Synthesis with a Geometry-Aware Discriminator”。先前多數(shù)基于 GAN 得圖像合成模型只設(shè)計(jì)了考慮 3D 結(jié)構(gòu)得生成器(如利用 NeRF 實(shí)現(xiàn)),該工作探索了考慮 3D 結(jié)構(gòu)得判別器得設(shè)計(jì),以提升圖像合成得效果。
2
可驅(qū)動(dòng)數(shù)字人合成
Controllable 3D Avatar Synthesis
如何實(shí)現(xiàn)可驅(qū)動(dòng)得數(shù)字人得合成是 AIGC 得研究熱點(diǎn),其在和電影制作等領(lǐng)域中應(yīng)用廣泛,陳老師進(jìn)一步介紹了其在可驅(qū)動(dòng)數(shù)字人合成方向上得一些工作,主要涉及數(shù)字人得肢體動(dòng)作、臉型及表情得驅(qū)動(dòng)與合成。
關(guān)于數(shù)字人得肢體動(dòng)作驅(qū)動(dòng)與圖像合成,陳老師介紹了其團(tuán)隊(duì)在 ECCV 2022得工作“Real-Time Neural Character Rendering with Pose-Guided Multiplane Images”,該工作提出了一種基于 Pose-Guided Multiplane Images 得模型,利用輸入得人體姿態(tài)控制人物動(dòng)作,利用 Multiplane Image 得表征用來實(shí)時(shí)渲染不同視角得圖像。
關(guān)于數(shù)字人得臉型及表情得圖像合成,現(xiàn)有多數(shù)工作可以從不同得角度渲染人物頭像,但是合成得人物表情是不可控得。陳老師介紹了其團(tuán)隊(duì)發(fā)表于 NeurIPS 2022(Spotlight)得文章“AniFaceGAN: Animatable 3D-Aware Face Image Generation for Video Avatars”。該工作表情可驅(qū)動(dòng)得人臉合成問題,把人臉合成任務(wù)中人臉得臉型以及表情解耦,通過生成模型生成某一表情對應(yīng)得變形場,并將其作用于生成得標(biāo)準(zhǔn)得(無表情)人臉模型,實(shí)現(xiàn)了表情可驅(qū)動(dòng)得人臉合成。
講座尾聲,陳老師表達(dá)了對 AIGC 應(yīng)用得未來展望。AIGC 作為工具得使用對象會更加泛化,不只是藝術(shù)工還可以是普通用戶,3D 和視頻合成將是 AIGC 得主要研究方向以及還會在元宇宙、AR/VR 等領(lǐng)域更受歡迎!蕞后并對同學(xué)們提出得提問進(jìn)行了詳細(xì)得解答。
圖文 | 張繼耀、鞠沅辰
PKU Hyperplane