只需一張圖片、一句動(dòng)作指令，Animate124輕松生成3D視頻

時(shí)間：2023-12-21 17:05:37

來(lái)源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #只需一張圖片、一句動(dòng)作指令，Animate124輕松生成3D視頻#】

Animate124，輕松將單張圖片變成 3D 視頻。

原文來(lái)源：機(jī)器之心

圖片來(lái)源：由無(wú)界 AI生成

近一年來(lái)，DreamFusion 引領(lǐng)了一個(gè)新潮流，即 3D 靜態(tài)物體與場(chǎng)景的生成，這在生成技術(shù)領(lǐng)域引發(fā)了廣泛關(guān)注?；仡欉^(guò)去一年，我們見(jiàn)證了 3D 靜態(tài)生成技術(shù)在質(zhì)量和控制性方面的顯著進(jìn)步。技術(shù)發(fā)展從基于文本的生成起步，逐漸融入單視角圖像，進(jìn)而發(fā)展到整合多種控制信號(hào)。

與此相較，3D 動(dòng)態(tài)場(chǎng)景生成仍處于起步階段。2023 年初，Meta 推出了 MAV3D，標(biāo)志著首次嘗試基于文本生成 3D 視頻。然而，受限于開(kāi)源視頻生成模型的缺乏，這一領(lǐng)域的進(jìn)展相對(duì)緩慢。

然而，現(xiàn)在，基于圖文結(jié)合的 3D 視頻生成技術(shù)已經(jīng)問(wèn)世！

盡管基于文本的 3D 視頻生成能夠產(chǎn)生多樣化的內(nèi)容，但在控制物體的細(xì)節(jié)和姿態(tài)方面仍有局限。在 3D 靜態(tài)生成領(lǐng)域，使用單張圖片作為輸入已經(jīng)能夠有效重建 3D 物體。由此受到啟發(fā)，來(lái)自新加坡國(guó)立大學(xué)（NUS）和華為的研究團(tuán)隊(duì)提出了 Animate124 模型。該模型結(jié)合單張圖片和相應(yīng)的動(dòng)作描述，實(shí)現(xiàn)了對(duì) 3D 視頻生成的精準(zhǔn)控制。

項(xiàng)目主頁(yè): https://animate124.github.io/
論文地址: https://arxiv.org/abs/2311.14603
Code: https://github.com/HeliosZhao/Animate124

核心方法

方法概括

根據(jù)靜態(tài)和動(dòng)態(tài)，粗糙和精細(xì)優(yōu)化，本文將 3D 視頻生成分為了 3 個(gè)階段：1）靜態(tài)生成階段：使用文生圖和 3D 圖生圖擴(kuò)散模型，從單張圖像生成 3D 物體；2）動(dòng)態(tài)粗糙生成階段：使用文生視頻模型，根據(jù)語(yǔ)言描述優(yōu)化動(dòng)作；3) 語(yǔ)義優(yōu)化階段：額外使用個(gè)性化微調(diào)的 ControlNet，對(duì)第二階段語(yǔ)言描述對(duì)外觀造成的偏移進(jìn)行優(yōu)化改善。

圖 1. 整體框架

靜態(tài)生成

本文延續(xù) Magic123 的方法，使用文生圖（Stable Diffusion）和 3D 圖生圖（Zero-1-to-3）進(jìn)行基于圖片的靜態(tài)物體生成：

對(duì)于條件圖片所對(duì)應(yīng)的視角，額外使用損失函數(shù)進(jìn)行優(yōu)化：

通過(guò)上述兩個(gè)優(yōu)化目標(biāo)，得到多視角 3D 一致的靜態(tài)物體（此階段在框架圖中省略）。

動(dòng)態(tài)粗糙生成

此階段主要使用文生視頻擴(kuò)散模型，將靜態(tài) 3D 視為初始幀，根據(jù)語(yǔ)言描述生成動(dòng)作。具體來(lái)說(shuō)，動(dòng)態(tài) 3D 模型（dynamic NeRF）渲染連續(xù)時(shí)間戳的多幀視頻，并將此視頻輸入文生視頻擴(kuò)散模型，采用 SDS 蒸餾損失對(duì)動(dòng)態(tài) 3D 模型進(jìn)行優(yōu)化：

僅使用文生視頻的蒸餾損失會(huì)導(dǎo)致 3D 模型遺忘圖片的內(nèi)容，并且隨機(jī)采樣會(huì)導(dǎo)致視頻的初始和結(jié)束階段訓(xùn)練不充分。因此，本文的研究者們對(duì)開(kāi)始和結(jié)束的時(shí)間戳進(jìn)行過(guò)采樣。并且，在采樣初始幀時(shí)，額外使用靜態(tài)函數(shù)進(jìn)行優(yōu)化（3D 圖生圖的 SDS 蒸餾損失）：

因此，此階段的損失函數(shù)為：

語(yǔ)義優(yōu)化

即使采用了初始幀過(guò)采樣并且對(duì)其額外監(jiān)督，在使用文生視頻擴(kuò)散模型的優(yōu)化過(guò)程中，物體的外觀仍然會(huì)受到文本的影響，從而偏移參考圖片。因此，本文提出了語(yǔ)義優(yōu)化階段，通過(guò)個(gè)性化模型對(duì)語(yǔ)義偏移進(jìn)行改善。

由于僅有單張圖片，無(wú)法對(duì)文生視頻模型進(jìn)行個(gè)性化訓(xùn)練，本文引入了基于圖文的擴(kuò)散模型，并對(duì)此擴(kuò)散模型進(jìn)行個(gè)性化微調(diào)。此擴(kuò)散模型應(yīng)不改變?cè)幸曨l的內(nèi)容和動(dòng)作，僅對(duì)外觀進(jìn)行調(diào)整。因此，本文采用 ControlNet-Tile 圖文模型，使用上一階段生成的視頻幀作為條件，根據(jù)語(yǔ)言進(jìn)行優(yōu)化。ControlNet 基于 Stable Diffusion 模型，只需要對(duì) Stable Diffusion 進(jìn)行個(gè)性化微調(diào)（Textual Inversion），即可提取參考圖像中的語(yǔ)義信息。個(gè)性化微調(diào)之后，將視頻視為多幀圖像，使用 ControlNet 對(duì)單個(gè)圖像進(jìn)行監(jiān)督：

另外，因?yàn)?ControlNet 使用粗糙的圖片作為條件，classifier-free guidance (CFG) 可以使用正常范圍（10 左右），而不用與文生圖以及文生視頻模型一樣使用極大的數(shù)值（通常是 100）。過(guò)大的 CFG 會(huì)導(dǎo)致圖像過(guò)飽和，因此，使用 ControlNet 擴(kuò)散模型可以緩解過(guò)飽和現(xiàn)象，實(shí)現(xiàn)更優(yōu)的生成結(jié)果。此階段的監(jiān)督由動(dòng)態(tài)階段的損失和 ControlNet 監(jiān)督聯(lián)合而成：

實(shí)驗(yàn)結(jié)果

作為第一個(gè)基于圖文的 3D 視頻生成模型，本文與兩個(gè) baseline 模型和 MAV3D 進(jìn)行了比較。與其他方法相比，Animate124 有更好的效果。

可視化結(jié)果比較

圖 2. Animate124 與兩個(gè) baseline 比較

圖 3.1. Animate124 與 MAV3D 文生 3D 視頻比較

圖 3.1. Animate124 與 MAV3D 圖生 3D 視頻比較

量化結(jié)果比較

本文使用 CLIP 和人工評(píng)價(jià)生成的質(zhì)量，CLIP 指標(biāo)包括與文本的相似度和檢索準(zhǔn)確率，與圖片的相似度，以及時(shí)域一致性。人工評(píng)價(jià)指標(biāo)包括與文本的相似度，與圖片的相似度，視頻質(zhì)量，動(dòng)作真實(shí)程度以及動(dòng)作幅度。人工評(píng)價(jià)表現(xiàn)為單個(gè)模型與 Animate124 在對(duì)應(yīng)指標(biāo)上選擇的比例。

與兩個(gè) baseline 模型相比，Animate124 在 CLIP 和人工評(píng)價(jià)上均取得更好的效果。

表 1. Animate124 與兩個(gè) baseline 量化比較

總結(jié)

Animate124 是首個(gè)根據(jù)文本描述，將任意圖片變成 3D 視頻的方法。其采用多種擴(kuò)散模型進(jìn)行監(jiān)督和引導(dǎo)，優(yōu)化 4D 動(dòng)態(tài)表征網(wǎng)絡(luò)，從而生成高質(zhì)量 3D 視頻。

小編推薦下載