原文來源:深思SenseAI
圖片來源:由無界 AI生成
在全球新一代 AI 獨(dú)角獸的競賽中,視頻生成技術(shù)作為最具潛力的領(lǐng)域之一備受關(guān)注。最近,Google 推出了名為 VideoPoet 的大型語言模型,它不僅能夠從文本和圖像生成視頻,還具備風(fēng)格遷移、視頻聲音頻等功能,其動(dòng)作生成的豐富性和流暢度令人印象深刻,被廣泛認(rèn)為是革命性的 zero-shot 視頻生成工具。本期專訪特邀 VideoPoet 的核心作者于力軍同學(xué)和 Google 機(jī)器學(xué)習(xí)工程師 Yishuai,與 SenseAI 一同進(jìn)行技術(shù)思考與應(yīng)用探索。
視頻生成的技術(shù)層面是在現(xiàn)有的技術(shù)框架下的規(guī)?;€是會(huì)有更加創(chuàng)新的框架出現(xiàn),目前是未知的,唯一確定的是,今年的視頻生成技術(shù)還會(huì)有新一輪的迭代,然后走向成熟,最終促使應(yīng)用層的又一輪爆發(fā)。
視頻生成的應(yīng)用層面,是短視頻先行,消費(fèi)側(cè)需求時(shí)長更短,質(zhì)量要求更靈活;同時(shí)供給側(cè),受制于現(xiàn)有算法架構(gòu)和算力消耗,ROI 還未商業(yè)可行;內(nèi)容品類上,看好動(dòng)漫動(dòng)畫,自然風(fēng)光和教育方向。
未來視頻生成是混合動(dòng)態(tài)的:拍攝不會(huì)被取代,依然是重要素材的來源,但生成是很好的補(bǔ)充、延展、想象具像化。
模型即產(chǎn)品:AI應(yīng)該在人類創(chuàng)作和具像化過程中的每一步去適應(yīng)人類,輔助人類,這個(gè)前提就是模型具備了多模態(tài)輸入能力和下游生成編輯能力的最小單元,和模型的交互是極簡和動(dòng)態(tài)的,在任意時(shí)間維度和生成狀態(tài)中,都可以靈活的輸入和編輯,模型會(huì)自己去理解和生成。
01 背景與研究方向
在本期播客中的嘉賓于力軍,目前是卡內(nèi)基梅隆大學(xué)的人工智能領(lǐng)域的博士生。于博士的學(xué)術(shù)之旅始于北京大學(xué),專業(yè)為計(jì)算機(jī)科學(xué)和經(jīng)濟(jì)學(xué)。他在 CMU 的研究主要是與?Alexander?Hauptmann?博士合作,聚焦于多媒體的研究。他們的團(tuán)隊(duì)從多媒體檢索起步,逐漸過渡到視頻理解,并最終專注于視頻生成技術(shù)的創(chuàng)新。于博士特別致力于多模態(tài)大型模型的研究,重點(diǎn)是多任務(wù)生成的視角。此外,他與谷歌有著長期的合作關(guān)系,他在谷歌的導(dǎo)師是Jiang Lu老師,他是CMU研究組的畢業(yè)生,目前在谷歌擔(dān)任研究科學(xué)家,專注于視頻生成領(lǐng)域。他們在谷歌的很多重要研究都是圍繞這一主題展開的。
02 技術(shù)架構(gòu) Q&A
SenseAI:基于LLM的視頻生成模型會(huì)不會(huì)在長期比Diffusion 類型的模型更具潛力和優(yōu)勢?LLM的架構(gòu)和 Diffusion 架構(gòu)圖片和視頻生成,未來是否會(huì)到一個(gè)趨勢,就是各自生成的質(zhì)量都非常接近,但是 LLM 架構(gòu)在視頻內(nèi)容和邏輯上會(huì)更突出。還是會(huì)有別的趨勢?
于博士:這是一個(gè)很好的問題,剛才問題當(dāng)中所拋出的這些觀點(diǎn),我大體上是同意。因?yàn)楝F(xiàn)在在語言領(lǐng)域LLM 發(fā)展的非常好,它有這個(gè)很強(qiáng)的邏輯能力,推理能力,然后同時(shí),現(xiàn)在又具有這個(gè)非常好的多模態(tài)泛化能力,那么我是相信使用 LLM 作為 backbone 去做這個(gè)視頻生成,在各方面的擴(kuò)展性,這個(gè)邏輯一致性上會(huì)比將來的 Diffusion 模型更好。當(dāng)然這是建立在我們現(xiàn)在的觀測上,也許有一天這個(gè) Diffusion Model 也會(huì)產(chǎn)生一定的進(jìn)步。但視覺質(zhì)量上,將來可能是會(huì)逐漸飽和的,現(xiàn)在我們也看到一些這個(gè)產(chǎn)品出來,已經(jīng)達(dá)到了一定程度上的可能性。而將來我們可能更多是在內(nèi)容上去進(jìn)行推進(jìn),然后其實(shí)這兩個(gè)技術(shù)路線也不是非此即彼的,我們也可以這個(gè)結(jié)合 LLM作為這個(gè)Latent Model(潛在模型)去利用它的這個(gè)多模態(tài)的zero shot和邏輯性。最后,我們再結(jié)合上一定的 Diffusion 的高質(zhì)量的能力去做最后一步,從Latent space回到Pixel space的過程。將來也可能是一個(gè)混合的架構(gòu)。
SenseAI:介紹一下VideoPoet獨(dú)特的架構(gòu)設(shè)計(jì)
于博士:它是概念上非常簡單的模型。我們就是利用了一個(gè)大語言模型結(jié)構(gòu)的 Causal 的 Transformer。然后這個(gè) Transformer,完全是在 Token Space進(jìn)行操作,那么我們的 Token,包括圖像和視頻 Token,然后也包括音頻 Token,同時(shí)還包括這個(gè)文本的這個(gè)Embedding。那么我們怎么把這些模態(tài)都統(tǒng)一到這個(gè) Token space,我們使用了每一個(gè)模態(tài)特有的 Tokenizer 。這里面圖片和視頻,我們使用了我之前設(shè)計(jì)的 MAGVIT-v2 Tokenizer。我們可以把圖片和任意長度的視頻 Tokenize 到一個(gè)空間里,然后同時(shí)它有很高的重建的效果,所以保證了我們 Video 的生成質(zhì)量。然后音頻部分,我們使用的是 SoundStream 這是一個(gè)已經(jīng)成熟的 Tokenizer。然后文本部分,我們就是使用已有的 T5 去 Embedding,這些模態(tài)混合在一塊兒,然后我們進(jìn)行大量的多模態(tài),多任務(wù)的預(yù)訓(xùn)練。使得他能夠進(jìn)行文生視頻,圖生視頻、視頻生音頻,風(fēng)格轉(zhuǎn)換以及視頻編輯等等其他各種應(yīng)用。
(參考:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html)
SenseAI:把這個(gè) LLM 的基于一個(gè)多模態(tài)詞匯表進(jìn)行訓(xùn)練,然后能夠生成就您講的高保真、長時(shí)間,而且動(dòng)作的復(fù)雜度很高的這類視頻。我們想了解在里面語音模型它提供怎么樣價(jià)值?我們對(duì)語言模型的選擇會(huì)有很高要求嗎?
于博士:?其實(shí)在這個(gè)里面,language model是比較重要的一個(gè)模型。當(dāng)然我們說這些 tokenizer 也很重要,那 tokenizer 其實(shí)對(duì)每個(gè)模態(tài)進(jìn)行一定比例的壓縮,然后使得 language model 更好的學(xué)習(xí)。而最后,我們把所有的模態(tài)都放上 token ,然后這里面的每一個(gè)生成任務(wù),都是由這個(gè) language model 它在進(jìn)行學(xué)習(xí)的,然后它在大規(guī)模的預(yù)訓(xùn)練之后,可以進(jìn)行很好的這個(gè) generalization 以及 transfer。對(duì)于model 的選擇有很高的要求,目前來看,我們需要不小的參數(shù)量來放在這個(gè) language model 里面,使得它才能學(xué)習(xí)到我們目前展現(xiàn)出來這些能力。但是你說如果具體到這個(gè)LLaMA、 GPT 還是 PaML 或者 Gemini 這種級(jí)別的 architecture comparison,我覺得目前可能不會(huì)有那么大的影響。它是一個(gè) Causal Language Model這件事很重要。
SenseAI:這樣也可以保證或是幫助我們的模型,隨著 backbone 的進(jìn)化而不斷進(jìn)化對(duì)嗎?
于博士:?對(duì)的,我們可以始終就是利用 language space 最新的這個(gè)研究來提升我們視頻生成以及多模態(tài)的生成質(zhì)量。
SenseAI:明白,因?yàn)榍懊婺阋呀?jīng)提到關(guān)于這個(gè)MAGVIT 的 tokenizer 的使用了,所以我們想了解一下,對(duì)于這個(gè) tokenizer 的選擇上,我們其實(shí)很關(guān)注它的哪些性能,它對(duì)穩(wěn)我們這個(gè)視頻生成的穩(wěn)定性上都提供怎么樣的幫助,未來,我們可能還會(huì)嘗試一些其他的怎么樣的一些 tokenizer?
于博士:?對(duì) tokenizer 其實(shí)是以 transformer 作為backbone的,就是以 language model 的視頻生成模型里面非常重要的一個(gè)模塊,我們很早就開始做這個(gè)系列了,大概去年夏天的時(shí)候。那個(gè)時(shí)候最早我們做了一版這個(gè) 3D tokenizer,當(dāng)時(shí)是市面上最好的。然后我們基于這個(gè) tokenizer 試圖去 scale up這個(gè)事情, transformer 模型做到一定程度之后,我們就會(huì)發(fā)現(xiàn)它仍然被這個(gè)tokenizer bottleneck。
所以今年這個(gè)夏天左右的時(shí)候,我們就開始了這個(gè) MAGVIT-V2 的tokenizer的研究,主要的目標(biāo)有兩個(gè),一個(gè)是我們希望大幅提升這個(gè)視頻的視覺的質(zhì)量。同時(shí),我們也希望能夠盡可能利用更多的更大的詞表。這是因?yàn)橹暗囊曈X tokenizer,通常它只有 1000 到 8000的詞表大小。對(duì)于 language model 來說,這其實(shí)是非常小的,不太好發(fā)揮出它現(xiàn)在這么大規(guī)模參數(shù)的能力。而我們常見的語言模型,通常在 200K 左右,那么我們在 MAGVIT-V2 里面通過一個(gè)創(chuàng)新的quantization 辦法,使得我們的詞表也可以 scale 到200K 甚至更大。然后同時(shí)我們在 MAGVIT-V2 里面進(jìn)行了一個(gè)改動(dòng),就是我們不再用這個(gè)純 3D的model,我們已經(jīng)發(fā)現(xiàn)它比 2D 要很好很多,但是其實(shí)比單純的這個(gè) 3D modeling 更好的一個(gè)變種是causal 3D modeling, 就是我們的結(jié)合它視頻在時(shí)間軸上的這個(gè)自然屬性,永遠(yuǎn)只依賴前面的幀。然后這樣的話使得我們第一幀就是單獨(dú)的,使得它可以做圖片和視頻的 joint tokenization。同時(shí),它可以做視頻的無限長的 tokenization,然后這個(gè)也在結(jié)合causal LLM的時(shí)候,使得我們對(duì)后面的token預(yù)測要簡單很多,因?yàn)樗肋h(yuǎn)是一個(gè)單向的dependency,
在未來的話,tokenizer 我覺得還有很大的提升空間,因?yàn)槟壳皝砜?,它仍然是一個(gè)很小的模型,只有幾百 million 的參數(shù),相比于我們的這個(gè) VideoPoet的 Transformer 來說是非常小的,然后在 scalability上它可能仍然是一個(gè) bottleneck。然后我們會(huì)去探索如何把這個(gè)模型做大?如何去修改其中目前的一些訓(xùn)練的目標(biāo),比如說它仍然設(shè)計(jì)了一個(gè)GAN loss,沒有那么穩(wěn)定,那么有沒有可能用 diffusion 或者consistency 進(jìn)行替代,這也是值得一個(gè)研究的課題。
(參考 https://magvit.cs.cmu.edu/v2/)
SenseAI:以后未來任何使用圖片做圖形encoding的地方都能用上這個(gè) tokenizer,如果是這樣情況下,那么 diffusion 類型的模型有沒有可能也能先用MAGVIT 的 tokenizer。有沒有這類的可能?
于博士:?這是非常好的問題,我們是希望未來需要使用圖片 encoder 的地方都可以使用它。然后同時(shí)我們在進(jìn)行 MAGVIT-V2 設(shè)計(jì)的時(shí)候也進(jìn)行了多方面的評(píng)估。首先,我們在標(biāo)準(zhǔn)的這個(gè) benchmark 上獲得了一定效果;然后同時(shí)我們也使用它單純進(jìn)行了video compression,我們發(fā)現(xiàn)它在相同 bandwidth下,它的 compression quality 就是在你重建出來之后,是比目前廠商用的 H265 要更好的。是和下一代的算法叫 H266VVC,是可以打一個(gè)平手的。當(dāng)然目前的 tokenizer,在壓縮和解壓縮過程中,它需要用到 GPU 或者 CPU 可能 cost 還會(huì)更大一點(diǎn)。然后第三點(diǎn)就是我們也進(jìn)行了這個(gè)視頻理解方面的這個(gè)評(píng)測,發(fā)現(xiàn)這個(gè) tokenizer 的 token對(duì)于自監(jiān)督學(xué)習(xí),然后用于動(dòng)作識(shí)別等等的應(yīng)用也是有幫助的。然后涉及到 diffusion model,這也是一個(gè)非常好的問題。最近也有另一個(gè)工作,它就是使用了MAGVIT-V2 的 encoder 和 decoder,然后在這個(gè)enorder 和 decoder的這個(gè) latent space里面做了一個(gè) latent diffusion,那么 diffusion model一樣可以用我們的 tokenizer 或者更準(zhǔn)確的說,我們這一類tokenizer 目前已經(jīng)測試過幾個(gè) transformer,全都是有非常好的性能。
SenseAI:關(guān)于這個(gè)動(dòng)作的豐富性和合理性,一直是這個(gè)視頻生成的一個(gè)問題。我們跟其他團(tuán)隊(duì)交流過程中,大家也會(huì)提到類似這個(gè)世界模型的這種概念就是對(duì)環(huán)境物體交互基礎(chǔ)理解,可以解決這個(gè)問題,您對(duì)這方面怎么看,在這個(gè)方面上有沒有持續(xù)的優(yōu)化。
于博士:?動(dòng)作的豐富性,我覺得目前就是2023年,已經(jīng)過去了,大家也看到了很多提升。這里面比較關(guān)鍵的點(diǎn),在一開始的時(shí)候,大家都是從 stable diffusion 之類的模型初始化,它是一個(gè)二級(jí)的模型,然后我們給它稍微加一點(diǎn) temporal attention或者這個(gè) temporal convolution。試圖把它改造成一個(gè)視頻模型。那么這個(gè)過程中,它對(duì)時(shí)間的建模其實(shí)是比較弱的,所以使得我們看到它都不怎么動(dòng),動(dòng)作的豐富性,這個(gè)幅度都比較差。而這個(gè) MAGVIT 系列就是,包括今年出來的其他一些工作都是使用了原生的 3D 建模。那么 3D 建模就是說我們同時(shí)去學(xué)習(xí)時(shí)間和空間上的這個(gè)變換。那么這樣一來,我們獲得的這個(gè)視頻,它的動(dòng)作幅度就會(huì)更大一些。連貫性會(huì)更好一些,當(dāng)然,我們說局部的動(dòng)作。在更大的范圍內(nèi),我們怎么能獲得更連貫的,更加豐富的,甚至這個(gè)更加合理的動(dòng)作,可能就要依賴我們中間這個(gè)大模型。隨著它的參數(shù)量提高它能力的增強(qiáng),就像你說的對(duì)世界的理解的更深刻了,可能它自己學(xué)習(xí)出了這個(gè)世界的物理規(guī)律,那么它生成出來的內(nèi)容也就是遵循我們?nèi)祟惖某WR(shí),看起來就非常合理,我覺得是仍然需要前進(jìn)一段時(shí)間,但是我是相信它的,這可能就是將來我們做多模態(tài)大模型的一條思路,可能語言不是那么必要的,但是我們通過這個(gè)原始世界的自然觀察。把這些規(guī)律學(xué)出來,這對(duì)模型提出了更高的要求,這也是值得未來研究的一個(gè)方向。
SenseAI:關(guān)于有一個(gè)小細(xì)節(jié),這個(gè)論文的后半還也提到這個(gè) super resolution ,您剛才說到其他的論文中,其實(shí)也都用到了這個(gè),就我們現(xiàn)在就會(huì)在想,那是不是每一個(gè)視頻生成的模型都需要用到這個(gè)?目前這方面的可探索空間有多大?目前的架構(gòu)是否比較通用,尤其是對(duì) LLM 和 Diffusion 類型,是不是都比較公平?
于博士:?其實(shí)歸根結(jié)底需要 super resolution 的原因是我們的原生的那個(gè)模型,它輸出的這個(gè)分辨率、時(shí)長都比較低,所以我們需要為了能夠獲得更好看的效果。在后面再嫁接一個(gè)模型。最終來說,當(dāng)我們能原生模型能夠輸出比較高的分辨率,像現(xiàn)在一些圖像的工作可能就可以了,那么它就不再需要這個(gè) super resolution。當(dāng)然在現(xiàn)階段,因?yàn)橐曨l是一個(gè)這個(gè)維度比較高的領(lǐng)域,那么它對(duì)效率的要求也更高一些,可能還是需要仍然使用 super resolution 一段時(shí)間,然后架構(gòu)上是否通用,目前我們用的架構(gòu)在里面其實(shí)是一個(gè) mask 的 transformer。然后做 super resolution,因?yàn)樗鼤?huì)更快一些。它又不是 Diffusion, 它比 Diffusion 更快一些。而常見的diffusion model,他們會(huì)用這個(gè) diffusion objective 自己去學(xué)一個(gè) super resolution,至少到目前為止,這條 super resolution 上的技術(shù)路線,大家還是沒有很大程度的共享的,我覺得以后可能可以。不過這里面其實(shí)有一個(gè)問題,就是 super resolution,目前當(dāng)然大家都 teacher forcing ,就是我用原始的低分辨率視頻和原始的高分辨率視頻去學(xué)習(xí),而更好的辦法可能是我用模型就是前一階段模型的輸出,是低分辨率到后面的高分辨率這樣進(jìn)行學(xué)習(xí),這個(gè)叫 student forcing,它會(huì)使得你這個(gè)distribution shift 更小,而就需要對(duì)每個(gè)模型專門進(jìn)行 super resolution 的訓(xùn)練,這個(gè)可能通用性就會(huì)下降。
SenseAI:?我們對(duì)數(shù)據(jù)這塊兒也很感興趣,就是一直以來數(shù)據(jù)的收集和處理對(duì)視頻生成來說也很關(guān)鍵,也想了解一下在 Videopoets 里面我們做了怎么樣的選擇工作,我們是否有一些大規(guī)模處理數(shù)據(jù)的方法或者工具??以及現(xiàn)在數(shù)視頻類的數(shù)據(jù)的短缺,我們有沒有注意觀察到有一類可能對(duì)生成效果幫助很大,但是目前還沒有被收集的數(shù)據(jù)類型?
于博士:數(shù)據(jù)的話,現(xiàn)在至少從很多工作來看,這個(gè)是對(duì)模型非常重要的一個(gè)點(diǎn),但其實(shí)我們這個(gè)工作主要的關(guān)注點(diǎn)在模型這邊,所以對(duì)數(shù)據(jù)處理是比較少的。我們也從其他研究工作中看到,對(duì)于數(shù)據(jù)的篩選,整理和標(biāo)注是這個(gè)模型,特別是審美相關(guān)的生成質(zhì)量影響非常大的一個(gè)點(diǎn)。
SenseAI:除了數(shù)據(jù)以外,其實(shí)這個(gè)論文中也提到,對(duì)于社會(huì)責(zé)任和公平上做了一些分析,這個(gè)也是非常有遠(yuǎn)見的設(shè)計(jì),就是這方面您能講一講具體上怎么做,怎么去平衡的嗎?
于博士:?對(duì)這個(gè)是我們一些合作者進(jìn)行了model的社會(huì)公平性分析,然后這個(gè)有一些非常有意思的現(xiàn)象,就是我們會(huì)發(fā)現(xiàn)這個(gè)模型的輸出上,當(dāng)我們?nèi)ミx定一組這個(gè) prompt,它會(huì)更偏好這個(gè)年輕人,比如說18到35歲。然后男性以及膚色較淺的人種。我們會(huì)觀測到這樣的現(xiàn)象,同時(shí)會(huì)努力去設(shè)計(jì)一些 prompt 去使得它最后輸出的分布更接近于真實(shí)的分布。但是目前這個(gè)研究還比較早期,我們希望這些觀測可以在這個(gè)。之后模型迭代的時(shí)候,我們從數(shù)據(jù)的角度進(jìn)行優(yōu)化,使得我們做出模型是更加負(fù)責(zé)任的,更加就是具有盡可能小的 Bias。
SenseAI:我們也很好奇 VideoPoet 的下一步會(huì)在哪些地方持續(xù)做優(yōu)化,包括像多模態(tài)的組合輸入,我們這個(gè) language model 內(nèi)部的結(jié)構(gòu)設(shè)計(jì)上會(huì)不會(huì)還有一些創(chuàng)新,而在性能上,我們希望會(huì)在哪些方面持續(xù)做優(yōu)化。
于博士:?確實(shí),這個(gè)畢竟我們其實(shí)是最早把這個(gè)language model style 的 video generation 做出來,其實(shí)這個(gè)模型還有很大的提升空間。那么language model 給大家?guī)淼南胂罂臻g是很大的,比如說它有很強(qiáng)的 zero shot capability 甚至 in-context learning。那么一個(gè)發(fā)展方向就是我能不能進(jìn)一步去scale這個(gè)model,它在預(yù)訓(xùn)練的時(shí)候可能并沒有什么 task specific design。而是到 inference 的時(shí)候,我給他進(jìn)行少量的 instruction tuning 或者甚至只是給他收幾個(gè) example,然后教會(huì)他進(jìn)行一些新的任務(wù)。比如說我們可以以非常小的代價(jià)讓他學(xué)會(huì) video segmentation。那么這說明我們的模型可能本來就是對(duì)世界有一個(gè)很強(qiáng)的理解了,甚至比較用比較小的代價(jià),讓它能不能教會(huì)我這個(gè)牛頓定律。這些都是非常有意思的事情,就從科研角度;而從應(yīng)用角度來說,我可以以非常低的代價(jià)去做customized generation。也是非常有意思的應(yīng)用。
從性能上的優(yōu)化來說,現(xiàn)在我們這一類模型,包括其他視頻生成模型可能也一樣。最大的 bottleneck 是我們生成的時(shí)間的長度。以及在固定時(shí)間長度下,我們希望能原生的出盡可能高的 resolution 。那么這些就是回到這個(gè) LLM 的 backbone 上。我們希望它對(duì)這個(gè) long context support 能更強(qiáng),比如說能到幾百K。然后同時(shí)效率又不會(huì)下降太多,就是在一個(gè)合理的 cost 范圍內(nèi),使得我們能夠支持這個(gè)更長的更高分辨率的視頻生成,然后同時(shí)它是在 single task 里面把這些東西都學(xué)了,那么它會(huì)對(duì)多模態(tài)的組合內(nèi)容的,邏輯上的合理性都會(huì)有很大的提高。
SenseAI:?我們近期其實(shí)也看到有確實(shí)有一些更多的優(yōu)秀的視頻的生成論文出來,您是否有這種感覺,就視頻生成的文藝復(fù)興時(shí)期要到了,現(xiàn)有架構(gòu)的這種一些 scaling 的解決方案,在短期是不是還有一些新架構(gòu)顛覆的機(jī)會(huì)?
于博士:?對(duì)我們最近也看到非常多的工作,就是視頻生成領(lǐng)域現(xiàn)在在蓬勃發(fā)展,然后我還是很有信心的,我覺得這個(gè)2024年可能這個(gè)視頻生成會(huì)真的走向應(yīng)用。你說到底是現(xiàn)有架構(gòu)下的 scaling,還是會(huì)有新架構(gòu),我覺得可能再過幾個(gè)月,我們也許看還能看到一輪的技術(shù)迭代,我覺得到年底左右的時(shí)間,可能會(huì)走向成熟。
參考材料
https://magvit.cs.cmu.edu/v2/
https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html