【#區(qū)塊鏈# #世界頂尖多模態(tài)大模型開源!又是零一萬物,又是李開復(fù)#】
原文來源:量子位
圖片來源:由無界 AI生成
領(lǐng)跑中英文兩大權(quán)威榜單,李開復(fù)零一萬物交出多模態(tài)大模型答卷!
距離其首款開源大模型Yi-34B和Yi-6B的發(fā)布,僅間隔不到三個(gè)月的時(shí)間。
模型名為Yi Vision Language(Yi-VL),現(xiàn)已正式面向全球開源。
同屬Yi系列,同樣具有兩個(gè)版本:
Yi-VL-34B和Yi-VL-6B。
先來看兩個(gè)例子,感受一波Yi-VL在圖文對話等多元場景中的表現(xiàn):
Yi-VL對整幅圖做了詳細(xì)分析,不僅說明了指示牌上的內(nèi)容,甚至連“天花板”都有照顧到。
中文方面,Yi-VL也能清晰有條理地準(zhǔn)確表達(dá):
此外,官方也給出了測試結(jié)果。
Yi-VL-34B在英文數(shù)據(jù)集MMMU上準(zhǔn)確率41.6%,僅次于準(zhǔn)確率55.7%的GPT-4V,超越一系列多模態(tài)大模型。
而在中文數(shù)據(jù)集CMMMU上,Yi-VL-34B準(zhǔn)確率36.5%,領(lǐng)先于當(dāng)前最前沿的開源多模態(tài)模型。
Yi-VL基于Yi語言模型研發(fā),可以看到基于Yi語言模型的強(qiáng)大文本理解能力,只需對圖片進(jìn)行對齊,就可以得到不錯(cuò)的多模態(tài)視覺語言模型——這也是Yi-VL模型的核心亮點(diǎn)之一。
在架構(gòu)設(shè)計(jì)上,Yi-VL模型基于開源LLaVA架構(gòu),包含三個(gè)主要模塊:
在訓(xùn)練方法上,Yi-VL模型的訓(xùn)練過程分為三個(gè)階段,旨在全面提升模型的視覺和語言處理能力。
第一階段,使用1億張的“圖像-文本”配對數(shù)據(jù)集訓(xùn)練ViT和Projection模塊。
在這一階段,圖像分辨率被設(shè)定為224x224,以增強(qiáng)ViT在特定架構(gòu)中的知識獲取能力,同時(shí)實(shí)現(xiàn)與大型語言模型的高效對齊。
第二階段,將ViT的圖像分辨率提升至448x448,讓模型更加擅長識別復(fù)雜的視覺細(xì)節(jié)。此階段使用了約2500萬“圖像-文本”對。
第三階段,開放整個(gè)模型的參數(shù)進(jìn)行訓(xùn)練,目標(biāo)是提高模型在多模態(tài)聊天互動中的表現(xiàn)。訓(xùn)練數(shù)據(jù)涵蓋了多樣化的數(shù)據(jù)源,共約100萬“圖像-文本”對,確保了數(shù)據(jù)的廣泛性和平衡性。
零一萬物技術(shù)團(tuán)隊(duì)同時(shí)也驗(yàn)證了可以基于Yi語言模型強(qiáng)大的語言理解和生成能力,用其他多模態(tài)訓(xùn)練方法比如BLIP、Flamingo、EVA等快速訓(xùn)練出能夠進(jìn)行高效圖像理解和流暢圖文對話的多模態(tài)圖文模型。
Yi系列模型可以作為多模態(tài)模型的基座語言模型,給開源社區(qū)提供一個(gè)新的選項(xiàng)。同時(shí),零一萬物多模態(tài)團(tuán)隊(duì)正在探索從頭開始進(jìn)行多模態(tài)預(yù)訓(xùn)練,更快接近、超過GPT-4V,達(dá)到世界第一梯隊(duì)水平。
目前,Yi-VL模型已在Hugging Face、ModelScope等平臺上向公眾開放,用戶可親身體驗(yàn)這款模型在圖文對話等多元場景中的表現(xiàn)。
在全新多模態(tài)基準(zhǔn)測試MMMU中,Yi-VL-34B、Yi-VL-6B兩個(gè)版本均有不俗表現(xiàn)。
MMMU(全名Massive Multi-discipline Multi-modal Understanding & Reasoning 大規(guī)模多學(xué)科多模態(tài)理解和推理)數(shù)據(jù)集包含了11500個(gè)來自六大核心學(xué)科(藝術(shù)與設(shè)計(jì)、商業(yè)、科學(xué)、健康與醫(yī)學(xué)、人文與社會科學(xué)以及技術(shù)與工程)的問題,涉及高度異構(gòu)圖像類型和交織文本圖像信息,對模型的高級知覺和推理能力提出了極高要求。
而Yi-VL-34B在該測試集上以41.6%的準(zhǔn)確率,成功超越了一系列多模態(tài)大模型,僅次于GPT-4V(55.7%),展現(xiàn)出強(qiáng)大的跨學(xué)科知識理解和應(yīng)用能力。
同樣,在針對中文場景打造的CMMMU數(shù)據(jù)集上,Yi-VL模型展現(xiàn)了“更懂中國人”的獨(dú)特優(yōu)勢。
CMMMU包含了約12000道源自大學(xué)考試、測驗(yàn)和教科書的中文多模態(tài)問題。
其中,GPT-4V在該測試集上的準(zhǔn)確率為43.7%, Yi-VL-34B以36.5%的準(zhǔn)確率緊隨其后,領(lǐng)先于當(dāng)前最前沿的開源多模態(tài)模型。
項(xiàng)目地址:
[1]https://huggingface.co/01-ai
[2]https://www.modelscope.cn/organization/01ai
小編推薦下載
世界名畫大挑戰(zhàn) 益智休閑
小世界大創(chuàng)造 動作冒險(xiǎn)
開源趣游 金融理財(cái)
組合模型2 動作冒險(xiǎn)
人體模型 購物優(yōu)惠
中國模型網(wǎng) 購物優(yōu)惠
開源軟件庫 學(xué)習(xí)工具
開源自助開戶 金融理財(cái)
相關(guān)推薦
相關(guān)文章
更多>>資訊排行
同類軟件下載
熱門標(biāo)簽