當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > 撕掉虛擬人「營業(yè)臉」 DreamTalk開源釋機(jī)會

撕掉虛擬人「營業(yè)臉」 DreamTalk開源釋機(jī)會

更新時間：2024-01-10 12:38:00 | 作者：佚名

原文來源：元宇宙日爆圖片來源：由無界AI生成搭上AI大模型的春風(fēng)，元宇宙概念期出圈的虛擬數(shù)字人又火了一把。結(jié)合人工智能自然語言大模型，用3D動畫、動態(tài)捕捉、中之人等技術(shù)動起來、說起來的虛擬人，現(xiàn)在擁有“大腦”了。 AI化后，原本就能以文字、聲音輸出內(nèi)容的虛擬人，在與外界交互時更顯智能，輸出的內(nèi)容也在豐富度、專業(yè)性上提升了一個檔次。更重要的是，AI提高了...

原文來源：元宇宙日爆

圖片來源：由無界 AI生成

搭上AI大模型的春風(fēng)，元宇宙概念期出圈的虛擬數(shù)字人又火了一把。結(jié)合人工智能自然語言大模型，用3D動畫、動態(tài)捕捉、中之人等技術(shù)動起來、說起來的虛擬人，現(xiàn)在擁有“大腦”了。

AI化后，原本就能以文字、聲音輸出內(nèi)容的虛擬人，在與外界交互時更顯智能，輸出的內(nèi)容也在豐富度、專業(yè)性上提升了一個檔次。更重要的是，AI提高了虛擬人在制作層面的生產(chǎn)力。

2023年，各種添加了人工智能元素的虛擬人被廣泛用于內(nèi)容播報(bào)、直播等場景中，成為電商、短視頻博主們的新寵。

然而，不足始終存在。擬真類的虛擬人在表情、聲音、動作上仍然能被識別到機(jī)器感，自然度、真實(shí)感遠(yuǎn)不能與人類的肉身媲美。一些開發(fā)者試圖用AI大模型來彌補(bǔ)虛擬數(shù)字人的這個短板，DreamTalk就是解決方案之一。

這個基于擴(kuò)散模型的框架由阿里巴巴、清華大學(xué)和華中科大共同研發(fā)，從“頭”開始，不僅能讓虛擬頭像開口說話、唱歌，還能模仿表情變化、同步嘴形。

最近，DreamTalk開源了，這個框架有望為虛擬人注入“情緒”。

為虛擬人豐富聲情言表

DreamTalk的絕活兒是僅憑一張頭像圖片，就可以讓臉動起來，加上語音的輸入，說起來也不成問題，而且還能對上嘴型和神態(tài)，然后生成一段頭部說話的視頻。

擬人從“學(xué)習(xí)”開始?；诖竽Ｐ涂蚣?，DreamTalk可以從輸入的語音和肖像中學(xué)習(xí)并推斷出表達(dá)風(fēng)格，生成有個性的表達(dá)視頻。即使使用同一音源，頭像也能夠表現(xiàn)出生氣、開心、難過、鄙視等不同的情緒神態(tài)，并以相應(yīng)的面部表情來表達(dá)。

DreamTalk支持多種人物表情

DreamTalk這類模擬人類表情的解決方案再次為虛擬人制作環(huán)節(jié)增加了一個工具，畢竟，情緒是當(dāng)前虛擬人最匱乏的表現(xiàn)力。

喜上眉梢、橫眉怒目、涕泗橫流、笑逐顏開，人類的喜怒哀樂等情緒總是第一時間表達(dá)在臉上，再輔以語言呈現(xiàn)態(tài)度。而總想模擬人類的各種虛擬人人均一副“營業(yè)臉”，表情包里要么是“微笑”，要么是“扮酷”，情緒不能再多了，機(jī)器人語音雖然有各種腔調(diào)，但還是能讓人識別出機(jī)器感。

今年初，小冰公司啟動了“GPT克隆人計(jì)劃”，將AI和虛擬人做了結(jié)合。由此而來的AI克隆人網(wǎng)紅“半藏森林”上線后引起關(guān)注，但其僵硬的表情也讓很多人吐槽體驗(yàn)不佳。

近期，小冰的克隆人上線了淘寶旗艦店，面部僵化的問題依然存在，有買家評論吐槽：“視頻通話假的要死，跟博主半毛錢關(guān)系沒有。”

中國傳媒大學(xué)發(fā)布的調(diào)查顯示，對不同類型的虛擬數(shù)字人，大眾對其外形、人設(shè)、技術(shù)能力、服務(wù)能力有著明顯的期待差異：60%以上的用戶最關(guān)注虛擬偶像的外形和作品，66%的用戶關(guān)注虛擬主播的主持風(fēng)格，?50%的用戶認(rèn)為虛擬員工最重要的是技術(shù)服務(wù)以及跨界合作能力。

隨著虛擬人以直播等方式走進(jìn)與人類交互的場景時，需求正在朝著虛擬人的個性化發(fā)展衍生，尤其是當(dāng)AI大模型出現(xiàn)后，解決虛擬人情緒甚至情感的方案將成為一個獨(dú)立的賽道。

DreamTalk的開發(fā)方之一阿里巴巴此前就申請了“對話內(nèi)容生成、虛擬對話、對話內(nèi)容的數(shù)據(jù)處理方法”的專利。摘要顯示，該申請通過構(gòu)建情感關(guān)聯(lián)圖，可以深度理解引發(fā)對話情感的具體關(guān)鍵詞，從而通過情感關(guān)鍵詞預(yù)測目標(biāo)關(guān)鍵詞，有效地在對話回復(fù)內(nèi)容中展現(xiàn)同理心，進(jìn)而實(shí)現(xiàn)共情對話，提高對話內(nèi)容生成的準(zhǔn)確性。

進(jìn)入2024年，市場對虛擬人的需求不再只是能說會動了，還得把“情緒價值”拉滿。

AI給完「大腦」給「情緒」

能通過聲音、圖像適配情緒的DreamTalk類AI方案有望讓虛擬人的“表情包”豐富起來，也會給虛擬人制作帶來了便捷工具。

在技術(shù)上，虛擬人有機(jī)會借助AI擬態(tài)工具擺脫真人驅(qū)動的限制。

在“算法驅(qū)動型”虛擬人之前，虛擬人應(yīng)用的實(shí)現(xiàn)往往依靠真人驅(qū)動，這就是我們常說的“中之人”，即借助真人通過動作捕捉設(shè)備進(jìn)行形體、眼神、動作等的捕捉，然后才能進(jìn)行驅(qū)動和渲染。一般而言，它的生產(chǎn)周期更長，成本也比較高。

花臉AI創(chuàng)始人劉威曾表示，只有實(shí)現(xiàn)虛擬人的快速生成，解決低成本大量復(fù)制、高頻次內(nèi)容產(chǎn)出兩大問題，同時擺脫中之人的束縛，虛擬人才能有普遍的商業(yè)價值。

而“算法驅(qū)動型”的虛擬人，可以自驅(qū)動學(xué)習(xí)模特說話時的唇動、表情、語音，以及姿態(tài)和動作等等，不僅無需真人參與，還可以實(shí)現(xiàn)更快速的渲染，降低制作成本。所以，這種技術(shù)方法更適用于虛擬人的規(guī)模化制作。

在用戶體驗(yàn)上，智能化的情感生成將有效提高虛擬人交互能力的提升。

目前已出現(xiàn)較多陪伴型虛擬人應(yīng)用，其中一款名為Talkie的虛擬陪伴APP在在海外已有百萬日活。從去年8月開始，這款應(yīng)用的下載量一直在高位徘徊，并長期霸占著美國Google Play娛樂應(yīng)用下載榜前十的位置。除了美國之外，在新西蘭、英國、加拿大、澳大利亞這些發(fā)達(dá)市場，Talkie同樣取得了不錯的成績。

Talkie虛擬人主打“陪聊”

但包含Talkie在內(nèi)，目前的絕大多數(shù)主打陪伴場景的虛擬人應(yīng)用，在情感互動層面表現(xiàn)單一。以Talkie為例，里面的所有虛擬角色均以靜態(tài)圖片的形式出現(xiàn)在聊天背景中，互動的方式只有語言，主打一個“陪聊”。

隨著AI技術(shù)的突破發(fā)展，Talkie這類應(yīng)用絕不是虛擬陪伴產(chǎn)品的最終形態(tài)，它們將作為一種過渡形式，而解決數(shù)字人情緒表達(dá)的方案有望為虛擬人注入“靈魂”，成為虛擬人產(chǎn)品革命性的機(jī)會。

本站提醒：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財(cái)建議。