hao86下載站:值得大家信賴的游戲下載站!

首頁 > 區(qū)塊鏈 > 生成超清分辨率視頻,南洋理工開源Upscale-A-Video

生成超清分辨率視頻,南洋理工開源Upscale-A-Video

時間:2023-12-25 10:28:02
來源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #生成超清分辨率視頻,南洋理工開源Upscale-A-Video#】

原文來源:AIGC開放社區(qū)

圖片來源:由無界 AI生成

大模型在生成高質(zhì)量圖像方面表現(xiàn)出色,但在生成視頻任務(wù)中,經(jīng)常會面臨視頻不連貫、圖像模糊、掉幀等問題。

這主要是因為生成式抽樣過程中的隨機(jī)性,會在視頻序列中引入無法預(yù)測的幀跳動。同時現(xiàn)有方法僅考慮了局部視頻片段的時空一致性,無法保證整個長視頻的整體連貫性。

為了解決這些難題,新加坡南洋理工大學(xué)的研究人員開發(fā)了一種Upscale-A-Video框架,無需任何訓(xùn)練便能快速集成到大模型中,提供視頻超分辨率、去噪、還原等強(qiáng)大功能。

論文地址:https://arxiv.org/abs/2312.06640?

開源地址:https://github.com/sczhou/Upscale-A-Video?

項目地址:https://shangchenzhou.com/projects/upscale-a-video/?

Upscale-A-Video主要借鑒了圖像模型中的擴(kuò)散方法,設(shè)計了一種無需大規(guī)模訓(xùn)練即可快速遷移的框架。

該框架融合了局部和全局兩種策略來維持時間的一致性。局部層,模型通過 3D 卷積和時序注意力層增強(qiáng)特征提取網(wǎng)絡(luò)U-Net在短視頻片段內(nèi)的一致性。

全局層,則通過光流指導(dǎo)的循環(huán)潛碼傳播功能,提供跨視頻片段強(qiáng)化更長時間尺度下的連貫性。

除了時間一致性,Upscale-A-Video還可以通過文本提示指導(dǎo)細(xì)節(jié)紋理的生成,不同的提示詞可產(chǎn)生不同風(fēng)格、質(zhì)量。


時序U-Net


U-Net作為特征提取網(wǎng)絡(luò),對視頻質(zhì)量起決定性作用。傳統(tǒng)只考慮空間信息的U-Net在處理視頻時往往會引入高頻誤差,表現(xiàn)為抖動和閃爍。

Upscale-A-Video通過向U-Net中插入3D卷積塊和時序自注意力層,增強(qiáng)其對時間維度的建模能力。這使U-Net可以學(xué)習(xí)視頻數(shù)據(jù)中幀與幀之間的依賴,從而在局部序列內(nèi)實現(xiàn)一致的超分辨重建。

另一方面,研究人員選擇固定U-Net中的空間層參數(shù),只對新增時序?qū)舆M(jìn)行調(diào)優(yōu)。這種策略的優(yōu)點是可以避免從頭大規(guī)模預(yù)訓(xùn)練,充分利用圖像模型中提取的豐富特征。同時也縮短了網(wǎng)絡(luò)收斂的時間,起到事半功倍的效果。


循環(huán)潛碼


時序U-Net的作用范圍僅局限于短視頻片段,難以約束更長序列的全局一致性。而視頻抖動和質(zhì)量波動往往都是長時間范圍內(nèi)的現(xiàn)象。

為解決這一問題,Upscale-A-Video設(shè)計了一個基于光流的循環(huán)潛碼傳播模塊。

該模塊可以在不增加訓(xùn)練參數(shù)的情況下,通過前向和后向傳播推斷所有幀的潛碼信息,有效擴(kuò)大模型感知的時間范圍。

具體來說,該模塊利用預(yù)先估計的光流場,進(jìn)行逐幀傳播與融合。它根據(jù)光流的前向-后向一致性誤差判斷傳播的有效性,只選擇誤差小于閾值的區(qū)域進(jìn)行特征傳播。

而超出閾值的區(qū)域則保留當(dāng)前幀信息。這種混合融合策略,既利用了光流建模的長期信息,又避免了傳播錯誤的累積。


文本提示增強(qiáng)指導(dǎo)


Upscale-A-Video還支持文本條件和噪聲水平的控制,用戶可以依據(jù)實際情況,引導(dǎo)模型生成不同風(fēng)格和質(zhì)量的結(jié)果。

文本提示可以指導(dǎo)模型合成更逼真的細(xì)節(jié),如動物皮毛、油畫筆觸等。噪聲水平的調(diào)整也提供了在還原與生成間權(quán)衡的靈活性:加入更少噪聲有利于保真,而更高水平的噪聲則促使模型補(bǔ)充更豐富的細(xì)節(jié)。

這種可控制的生成能力進(jìn)一步增強(qiáng)了Upscale-A-Video處理復(fù)雜真實場景的魯棒性


實驗數(shù)據(jù)


研究人員從定量和定性兩個方面全面驗證了Upscale-A-Video的性能。在四個合成低質(zhì)量視頻基準(zhǔn)上,皆取得了最高的峰值信號噪聲比和最低的流式感知損失。

流式驗證集和AI生成視頻上, Upscale-A-Video的非參考畫質(zhì)評分也高居各方法之首。這也證明了Upscale-A-Video在保真還原和感知質(zhì)量上的優(yōu)勢。

從生成效果對比來看,Upscale-A-Video重建的視頻展現(xiàn)了更高實際分辨率下的細(xì)節(jié)層次;運動軌跡更加連貫自然,沒有明顯的抖動和裂縫。這得益于強(qiáng)大的擴(kuò)散先驗和時空一致性優(yōu)化。

相比之下,卷積神經(jīng)網(wǎng)絡(luò)和擴(kuò)散等方法會出現(xiàn)模糊不清,失真等效果,無法達(dá)到同等水準(zhǔn)。

小編推薦下載

相關(guān)文章

更多>>

同類軟件下載