文章來源:機(jī)器之心
最近幾天,據(jù)說全世界的風(fēng)投機(jī)構(gòu)開會(huì)都在大談 Sora。自去年初 ChatGPT 引發(fā)全科技領(lǐng)域軍備競賽之后,已經(jīng)沒有人愿意在新的 AI 生成視頻賽道上落后了。
在這個(gè)問題上,人們?cè)缬蓄A(yù)判,但也始料未及:AI 生成視頻,是繼文本生成、圖像生成以后技術(shù)持續(xù)發(fā)展的方向,此前也有不少科技公司搶跑推出自己的視頻生成技術(shù)。
不過當(dāng) OpenAI 出手發(fā)布 Sora 之后,我們卻立即有了「發(fā)現(xiàn)新世界」的感覺 —— 效果和之前的技術(shù)相比高出了幾個(gè)檔次。
Sora 生成的視頻,美國西部的淘金時(shí)代。感覺加上個(gè)解說和背景音樂就可以直接用在專題片里了。
在 Sora 及其技術(shù)報(bào)告推出后,我們看到了長達(dá) 60 秒,高清晰度且畫面可控、能多角度切換的高水平效果。在背后的技術(shù)上,研究人員訓(xùn)練了一個(gè)基于 Diffusion Transformer(DiT)思路的新模型,其中的 Transformer 架構(gòu)利用對(duì)視頻和圖像潛在代碼的時(shí)空 patch 進(jìn)行操作。
正如華為諾亞方舟實(shí)驗(yàn)室首席科學(xué)家劉群博士所言,Sora 展現(xiàn)了生成式模型的潛力(特別是多模態(tài)生成方面)顯然還很大。加入預(yù)測模塊是正確的方向。至于未來發(fā)展,還有很多需要我們探索,現(xiàn)在還沒有像 Transformer 之于 NLP 領(lǐng)域那樣的統(tǒng)一方法。
想要探求未來的路怎么走,我們或許可以先思考一下之前的路是怎么走過的。那么,Sora 是如何被 OpenAI 發(fā)掘出來的?
從 OpenAI 的技術(shù)報(bào)告末尾可知,相比去年 GPT-4 長篇幅的作者名單,Sora 的作者團(tuán)隊(duì)更簡潔一些,需要點(diǎn)明的僅有 13 位成員:
這些參與者中,已知的核心成員包括研發(fā)負(fù)責(zé)人 Tim Brooks、William Peebles、系統(tǒng)負(fù)責(zé)人 Connor Holmes 等。這些成員的信息也成為了眾人關(guān)注的焦點(diǎn)。
比如,Sora 的共同領(lǐng)導(dǎo)者 Tim Brooks,博士畢業(yè)于 UC Berkeley 的「伯克利人工智能研究所」BAIR,導(dǎo)師為 Alyosha Efros。
在博士就讀期間,他曾提出了 InstructPix2Pix,他還曾在谷歌從事為 Pixel 手機(jī)攝像頭提供 AI 算法的工作,并在英偉達(dá)研究過視頻生成模型。
另一位共同領(lǐng)導(dǎo)者 William (Bill) Peebles 也來自于 UC Berkeley,他在 2023 年剛剛獲得博士學(xué)位,同樣也是 Alyosha Efros 的學(xué)生。在本科時(shí),Peebles 就讀于麻省理工,師從 Antonio Torralba。
值得注意的是,Peebles 等人的一篇論文被認(rèn)為是這次 Sora 背后的重要技術(shù)基礎(chǔ)之一。
論文《Scalable diffusion models with transformers》,一看名字就和 Sora 的理念很有關(guān)聯(lián),該論文入選了計(jì)算機(jī)視覺頂會(huì) ICCV 2023。
論文鏈接:https://arxiv.org/abs/2212.09748
不過,這項(xiàng)研究在發(fā)表的過程還遇到了一些坎坷。上周五 Sora 發(fā)布時(shí),圖靈獎(jiǎng)獲得者、Meta 首席科學(xué)家 Yann LeCun 第一時(shí)間發(fā)推表示:該研究是我的同事謝賽寧和前學(xué)生 William Peebles 的貢獻(xiàn),不過因?yàn)椤溉狈?chuàng)新」,先被 CVPR 2023 拒絕,后來被 ICCV 2023 接收。
具體來說,這篇論文提出了一種基于 transformer 架構(gòu)的新型擴(kuò)散模型即 DiT。在該研究中,研究者訓(xùn)練了潛在擴(kuò)散模型,用對(duì)潛在 patch 進(jìn)行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)。他們通過以 Gflops 衡量的前向傳遞復(fù)雜度來分析擴(kuò)散 Transformer (DiT) 的可擴(kuò)展性。
研究者發(fā)現(xiàn),通過增加 Transformer 深度 / 寬度或增加輸入 token 數(shù)量,具有較高 Gflops 的 DiT 始終具有較低的 FID。除了良好的可擴(kuò)展性之外,DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基準(zhǔn)上的性能優(yōu)于所有先前的擴(kuò)散模型,在后者上實(shí)現(xiàn)了 2.27 的 FID SOTA 數(shù)據(jù)。
目前這篇論文的引用量僅有 191。同時(shí)可以看到,William (Bill) Peebles 所有研究中引用量最高的是一篇名為《GAN 無法生成什么》的論文:
當(dāng)然,論文的作者之一,前 FAIR 研究科學(xué)家、現(xiàn)紐約大學(xué)助理教授謝賽寧否認(rèn)了自己與 Sora 的直接關(guān)系。畢竟 Meta 與 OpenAI 互為競爭對(duì)手。
Sora 成功的背后,還有哪些重要技術(shù)?
除此之外,Sora 的成功,還有一系列近期業(yè)界、學(xué)界的計(jì)算機(jī)視覺、自然語言處理的技術(shù)進(jìn)展作為支撐。
簡單瀏覽一遍參考文獻(xiàn)清單,我們發(fā)現(xiàn),這些研究出自谷歌、Meta、微軟、斯坦福、MIT、UC 伯克利、Runway 等多個(gè)機(jī)構(gòu),其中不乏華人學(xué)者的成果。
歸根結(jié)底,Sora 今天的成就源自于整個(gè) AI 社區(qū)多年來的求索。
從 32 篇參考文獻(xiàn)中,我們選擇了幾篇展開介紹:
Ha, David, andJürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).
- 論文標(biāo)題:World Models
- 作者:David Ha、Jurgen Schmidhuber
- 機(jī)構(gòu):谷歌大腦、NNAISENSE(Schmidhuber 創(chuàng)立的公司)、Swiss AI Lab
- 論文鏈接:https://arxiv.org/pdf/1803.10122.pdf
這是一篇六年前的論文,探索的主題是為強(qiáng)化學(xué)習(xí)環(huán)境建立生成神經(jīng)網(wǎng)絡(luò)模型。世界模型可以在無監(jiān)督的情況下快速訓(xùn)練,以學(xué)習(xí)環(huán)境的壓縮空間和時(shí)間表示。通過使用從世界模型中提取的特征作為代理的輸入,研究者發(fā)現(xiàn)能夠訓(xùn)練出非常緊湊和簡單的策略,從而解決所需的任務(wù),甚至可以完全在由世界模型生成的幻夢(mèng)中訓(xùn)練代理,并將該策略移植回實(shí)際環(huán)境中。
機(jī)器之心報(bào)道:《模擬世界的模型:谷歌大腦與 Jürgen Schmidhuber 提出「人工智能夢(mèng)境」》
Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).
- 論文標(biāo)題:VideoGPT: Video Generation using VQ-VAE and Transformers
- 作者:Wilson Yan、Yunzhi Zhang、Pieter Abbeel、Aravind Srinivas
- 機(jī)構(gòu):UC 伯克利
- 論文鏈接:https://arxiv.org/pdf/2104.10157.pdf
這篇論文提出的 VideoGPT 可用于擴(kuò)展基于似然的生成對(duì)自然視頻進(jìn)行建模。Video-GPT 將通常用于圖像生成的 VQ-VAE 和 Transformer 模型以最小的修改改編到視頻生成領(lǐng)域,研究者利用 VQVAE 通過采用 3D 卷積和軸向自注意力學(xué)習(xí)降采樣的原始視頻離散潛在表示,然后使用簡單的類似 GPT 的架構(gòu)進(jìn)行自回歸,使用時(shí)空建模離散潛在位置編碼。VideoGPT 結(jié)構(gòu)下圖:
Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.
- 論文標(biāo)題:NüWA: Visual Synthesis Pre-training for Neural visUal World creAtion
- 作者:Chenfei Wu、Jian Liang、Lei Ji、Fan Yang、Yuejian Fang、Daxin Jiang、Nan Duan
- 機(jī)構(gòu):微軟亞洲研究院、北京大學(xué)
- 論文鏈接:https://arxiv.org/pdf/2111.12417.pdf
相比于此前只能分別處理圖像和視頻、專注于生成其中一種的多模態(tài)模型,NüWA 是一個(gè)統(tǒng)一的多模態(tài)預(yù)訓(xùn)練模型,在 8 種包含圖像和視頻處理的下游視覺任務(wù)上具有出色的合成效果。
為了同時(shí)覆蓋語言、圖像和視頻的不同場景,NüWA 采用了 3D Transformer 編碼器 - 解碼器框架,它不僅可以處理作為三維數(shù)據(jù)的視頻,還可以分別用于處理一維和二維數(shù)據(jù)的文本和圖像。
該框架還包含一種 3D Nearby Attention (3DNA) 機(jī)制,以考慮空間和時(shí)間上的局部特征。3DNA 不僅降低了計(jì)算復(fù)雜度,還提高了生成結(jié)果的視覺質(zhì)量。與幾個(gè)強(qiáng)大的基線相比,NüWA 在文本到圖像生成、文本到視頻生成、視頻預(yù)測等方面都得到了 SOTA 結(jié)果,還顯示出驚人的零樣本學(xué)習(xí)能力。
機(jī)器之心報(bào)道:《AI 版「女媧」來了!文字生成圖像、視頻,8 類任務(wù)一個(gè)模型搞定》
He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
- 論文標(biāo)題:Masked autoencoders are scalable vision learners
- 作者:Kaiming He、Xinlei Chen、Saining Xie、Yanghao Li、Piotr Dollar、Ross Girshick
- 機(jī)構(gòu):Meta
- 論文鏈接:https://arxiv.org/abs/2111.06377
這篇論文展示了一種被稱為掩蔽自編碼器(masked autoencoders,MAE)的新方法,可以用作計(jì)算機(jī)視覺的可擴(kuò)展自監(jiān)督學(xué)習(xí)器。MAE 的方法很簡單:掩蔽輸入圖像的隨機(jī)區(qū)塊并重建丟失的像素。它基于兩個(gè)核心理念:研究人員開發(fā)了一個(gè)非對(duì)稱編碼器 - 解碼器架構(gòu),其中一個(gè)編碼器只對(duì)可見的 patch 子集進(jìn)行操作(沒有掩蔽 token),另一個(gè)簡單解碼器可以從潛在表征和掩蔽 token 重建原始圖像。研究人員進(jìn)一步發(fā)現(xiàn),掩蔽大部分輸入圖像(例如 75%)會(huì)產(chǎn)生重要且有意義的自監(jiān)督任務(wù)。結(jié)合這兩種設(shè)計(jì),就能高效地訓(xùn)練大型模型:提升訓(xùn)練速度至 3 倍或更多,并提高準(zhǔn)確性。
用 MAE 做 pre-training 只需 ImageNet-1k 就能達(dá)到超過 87% 的 top 1 準(zhǔn)確度,超過了所有在 ImageNet-21k pre-training 的 ViT 變體模型。從方法上,MAE 選擇直接重建原圖的元素,而且證明了其可行性,改變了人們的認(rèn)知,又幾乎可以覆蓋 CV 里所有的識(shí)別類任務(wù),開啟了一個(gè)新的方向。
具有良好擴(kuò)展性的簡單算法是深度學(xué)習(xí)的核心。在 NLP 中,簡單的自監(jiān)督學(xué)習(xí)方法(如 BERT)可以從指數(shù)級(jí)增大的模型中獲益。在計(jì)算機(jī)視覺中,盡管自監(jiān)督學(xué)習(xí)取得了進(jìn)展,但實(shí)際的預(yù)訓(xùn)練范式仍是監(jiān)督學(xué)習(xí)。在 MAE 研究中,研究人員在 ImageNet 和遷移學(xué)習(xí)中觀察到自編碼器 —— 一種類似于 NLP 技術(shù)的簡單自監(jiān)督方法 —— 提供了可擴(kuò)展的前景。視覺中的自監(jiān)督學(xué)習(xí)可能會(huì)因此走上與 NLP 類似的軌跡。
機(jī)器之心報(bào)道:《大道至簡,何愷明新論文火了:Masked Autoencoders 讓計(jì)算機(jī)視覺通向大模型》
Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022
- 論文標(biāo)題:High-resolution image synthesis with latent diffusion models
- 作者:Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser、Bjorn Ommer
- 機(jī)構(gòu):慕尼黑大學(xué)、Runway
- 論文鏈接:https://arxiv.org/pdf/2112.10752.pdf
基于這篇論文的成果,Stable Diffusion 正式面世,開啟了在消費(fèi)級(jí) GPU 上運(yùn)行文本轉(zhuǎn)圖像模型的時(shí)代。
該研究試圖利用擴(kuò)散模型實(shí)現(xiàn)文字轉(zhuǎn)圖像。盡管擴(kuò)散模型允許通過對(duì)相應(yīng)的損失項(xiàng)進(jìn)行欠采樣(undersampling)來忽略感知上不相關(guān)的細(xì)節(jié),但它們?nèi)匀恍枰谙袼乜臻g中進(jìn)行昂貴的函數(shù)評(píng)估,這會(huì)導(dǎo)致對(duì)計(jì)算時(shí)間和能源資源的巨大需求。該研究通過將壓縮與生成學(xué)習(xí)階段顯式分離來規(guī)避這個(gè)問題,最終降低了訓(xùn)練擴(kuò)散模型對(duì)高分辨率圖像合成的計(jì)算需求。
機(jī)器之心報(bào)道:《消費(fèi)級(jí) GPU 可用,文本轉(zhuǎn)圖像開源新模型生成宇宙變遷大片》
Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).
- 論文標(biāo)題:Photorealistic Video Generation with Diffusion Models
- 作者:李飛飛等
- 機(jī)構(gòu):斯坦福大學(xué)、谷歌研究院、佐治亞理工學(xué)院
- 論文鏈接:https://arxiv.org/pdf/2312.06662.pdf
在 Sora 之前,一項(xiàng)視頻生成研究收獲了大量贊譽(yù):Window Attention Latent Transformer,即窗口注意力隱 Transformer,簡稱 W.A.L.T。該方法成功地將 Transformer 架構(gòu)整合到了隱視頻擴(kuò)散模型中,斯坦福大學(xué)的李飛飛教授也是該論文的作者之一。
值得注意的是,盡管概念上很簡單,但這項(xiàng)研究首次在公共基準(zhǔn)上通過實(shí)驗(yàn)證明 Transformer 在隱視頻擴(kuò)散中具有卓越的生成質(zhì)量和參數(shù)效率。
這也是 Sora 32 個(gè)公開參考文獻(xiàn)中,距離此次發(fā)布最近的一項(xiàng)成果。
機(jī)器之心報(bào)道:《將 Transformer 用于擴(kuò)散模型,AI 生成視頻達(dá)到照片級(jí)真實(shí)感》
最后,Meta 研究科學(xué)家田淵棟昨天指出, Sora 不直接通過下一幀預(yù)測生成視頻的方法值得關(guān)注。更多的技術(shù)細(xì)節(jié),或許還等待 AI 社區(qū)的研究者及從業(yè)者共同探索、揭秘。
在這一方面 Meta 也有很多已公開的研究。不得不說 Sora 推出后,我們雖然沒有 OpenAI 的算力,但還有很多事可以做。