當(dāng)前位置:區(qū)塊鏈 >區(qū)塊鏈 > 撕掉虛擬人「營業(yè)臉」 DreamTalk開源釋機(jī)會

撕掉虛擬人「營業(yè)臉」 DreamTalk開源釋機(jī)會

更新時間:2024-01-10 12:38:00 | 作者:佚名
原文來源:元宇宙日爆 圖片來源:由無界AI生成 搭上AI大模型的春風(fēng),元宇宙概念期出圈的虛擬數(shù)字人又火了一把。結(jié)合人工智能自然語言大模型,用3D動畫、動態(tài)捕捉、中之人等技術(shù)動起來、說起來的虛擬人,現(xiàn)在擁有“大腦”了。 AI化后,原本就能以文字、聲音輸出內(nèi)容的虛擬人,在與外界交互時更顯智能,輸出的內(nèi)容也在豐富度、專業(yè)性上提升了一個檔次。更重要的是,AI提高了...

原文來源:元宇宙日爆

圖片來源:由無界 AI生成

搭上AI大模型的春風(fēng),元宇宙概念期出圈的虛擬數(shù)字人又火了一把。結(jié)合人工智能自然語言大模型,用3D動畫、動態(tài)捕捉、中之人等技術(shù)動起來、說起來的虛擬人,現(xiàn)在擁有“大腦”了。

AI化后,原本就能以文字、聲音輸出內(nèi)容的虛擬人,在與外界交互時更顯智能,輸出的內(nèi)容也在豐富度、專業(yè)性上提升了一個檔次。更重要的是,AI提高了虛擬人在制作層面的生產(chǎn)力。

2023年,各種添加了人工智能元素的虛擬人被廣泛用于內(nèi)容播報(bào)、直播等場景中,成為電商、短視頻博主們的新寵。

然而,不足始終存在。擬真類的虛擬人在表情、聲音、動作上仍然能被識別到機(jī)器感,自然度、真實(shí)感遠(yuǎn)不能與人類的肉身媲美。一些開發(fā)者試圖用AI大模型來彌補(bǔ)虛擬數(shù)字人的這個短板,DreamTalk就是解決方案之一。

這個基于擴(kuò)散模型的框架由阿里巴巴、清華大學(xué)和華中科大共同研發(fā),從“頭”開始,不僅能讓虛擬頭像開口說話、唱歌,還能模仿表情變化、同步嘴形。

最近,DreamTalk開源了,這個框架有望為虛擬人注入“情緒”。


為虛擬人豐富聲情言表


DreamTalk的絕活兒是僅憑一張頭像圖片,就可以讓臉動起來,加上語音的輸入,說起來也不成問題,而且還能對上嘴型和神態(tài),然后生成一段頭部說話的視頻。

擬人從“學(xué)習(xí)”開始?;诖竽P涂蚣?,DreamTalk可以從輸入的語音和肖像中學(xué)習(xí)并推斷出表達(dá)風(fēng)格,生成有個性的表達(dá)視頻。即使使用同一音源,頭像也能夠表現(xiàn)出生氣、開心、難過、鄙視等不同的情緒神態(tài),并以相應(yīng)的面部表情來表達(dá)。

DreamTalk支持多種人物表情

DreamTalk這類模擬人類表情的解決方案再次為虛擬人制作環(huán)節(jié)增加了一個工具,畢竟,情緒是當(dāng)前虛擬人最匱乏的表現(xiàn)力。

喜上眉梢、橫眉怒目、涕泗橫流、笑逐顏開,人類的喜怒哀樂等情緒總是第一時間表達(dá)在臉上,再輔以語言呈現(xiàn)態(tài)度。而總想模擬人類的各種虛擬人人均一副“營業(yè)臉”,表情包里要么是“微笑”,要么是“扮酷”,情緒不能再多了,機(jī)器人語音雖然有各種腔調(diào),但還是能讓人識別出機(jī)器感。

今年初,小冰公司啟動了“GPT克隆人計(jì)劃”,將AI和虛擬人做了結(jié)合。由此而來的AI克隆人網(wǎng)紅“半藏森林”上線后引起關(guān)注,但其僵硬的表情也讓很多人吐槽體驗(yàn)不佳。

近期,小冰的克隆人上線了淘寶旗艦店,面部僵化的問題依然存在,有買家評論吐槽:“視頻通話假的要死,跟博主半毛錢關(guān)系沒有。”

中國傳媒大學(xué)發(fā)布的調(diào)查顯示,對不同類型的虛擬數(shù)字人,大眾對其外形、人設(shè)、技術(shù)能力、服務(wù)能力有著明顯的期待差異:60%以上的用戶最關(guān)注虛擬偶像的外形和作品,66%的用戶關(guān)注虛擬主播的主持風(fēng)格,?50%的用戶認(rèn)為虛擬員工最重要的是技術(shù)服務(wù)以及跨界合作能力。

隨著虛擬人以直播等方式走進(jìn)與人類交互的場景時,需求正在朝著虛擬人的個性化發(fā)展衍生,尤其是當(dāng)AI大模型出現(xiàn)后,解決虛擬人情緒甚至情感的方案將成為一個獨(dú)立的賽道。

DreamTalk的開發(fā)方之一阿里巴巴此前就申請了“對話內(nèi)容生成、虛擬對話、對話內(nèi)容的數(shù)據(jù)處理方法”的專利。摘要顯示,該申請通過構(gòu)建情感關(guān)聯(lián)圖,可以深度理解引發(fā)對話情感的具體關(guān)鍵詞,從而通過情感關(guān)鍵詞預(yù)測目標(biāo)關(guān)鍵詞,有效地在對話回復(fù)內(nèi)容中展現(xiàn)同理心,進(jìn)而實(shí)現(xiàn)共情對話,提高對話內(nèi)容生成的準(zhǔn)確性。

進(jìn)入2024年,市場對虛擬人的需求不再只是能說會動了,還得把“情緒價值”拉滿。


AI給完「大腦」給「情緒」


能通過聲音、圖像適配情緒的DreamTalk類AI方案有望讓虛擬人的“表情包”豐富起來,也會給虛擬人制作帶來了便捷工具。

在技術(shù)上,虛擬人有機(jī)會借助AI擬態(tài)工具擺脫真人驅(qū)動的限制。

在“算法驅(qū)動型”虛擬人之前,虛擬人應(yīng)用的實(shí)現(xiàn)往往依靠真人驅(qū)動,這就是我們常說的“中之人”,即借助真人通過動作捕捉設(shè)備進(jìn)行形體、眼神、動作等的捕捉,然后才能進(jìn)行驅(qū)動和渲染。一般而言,它的生產(chǎn)周期更長,成本也比較高。

花臉AI創(chuàng)始人劉威曾表示,只有實(shí)現(xiàn)虛擬人的快速生成,解決低成本大量復(fù)制、高頻次內(nèi)容產(chǎn)出兩大問題,同時擺脫中之人的束縛,虛擬人才能有普遍的商業(yè)價值。

而“算法驅(qū)動型”的虛擬人,可以自驅(qū)動學(xué)習(xí)模特說話時的唇動、表情、語音,以及姿態(tài)和動作等等,不僅無需真人參與,還可以實(shí)現(xiàn)更快速的渲染,降低制作成本。所以,這種技術(shù)方法更適用于虛擬人的規(guī)模化制作。

在用戶體驗(yàn)上,智能化的情感生成將有效提高虛擬人交互能力的提升。

目前已出現(xiàn)較多陪伴型虛擬人應(yīng)用,其中一款名為Talkie的虛擬陪伴APP在在海外已有百萬日活。從去年8月開始,這款應(yīng)用的下載量一直在高位徘徊,并長期霸占著美國Google Play娛樂應(yīng)用下載榜前十的位置。除了美國之外,在新西蘭、英國、加拿大、澳大利亞這些發(fā)達(dá)市場,Talkie同樣取得了不錯的成績。

Talkie虛擬人主打“陪聊”

但包含Talkie在內(nèi),目前的絕大多數(shù)主打陪伴場景的虛擬人應(yīng)用,在情感互動層面表現(xiàn)單一。以Talkie為例,里面的所有虛擬角色均以靜態(tài)圖片的形式出現(xiàn)在聊天背景中,互動的方式只有語言,主打一個“陪聊”。

隨著AI技術(shù)的突破發(fā)展,Talkie這類應(yīng)用絕不是虛擬陪伴產(chǎn)品的最終形態(tài),它們將作為一種過渡形式,而解決數(shù)字人情緒表達(dá)的方案有望為虛擬人注入“靈魂”,成為虛擬人產(chǎn)品革命性的機(jī)會。

本站提醒:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,本內(nèi)容不作為投資理財(cái)建議。