當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > 世界頂尖多模態(tài)大模型開源！又是零一萬物，又是李開復(fù)

世界頂尖多模態(tài)大模型開源！又是零一萬物，又是李開復(fù)

更新時間：2024-01-23 10:21:00 | 作者：佚名

原文來源：量子位圖片來源：由無界AI生成領(lǐng)跑中英文兩大權(quán)威榜單，李開復(fù)零一萬物交出多模態(tài)大模型答卷！距離其首款開源大模型Yi-34B和Yi-6B的發(fā)布，僅間隔不到三個月的時間。模型名為YiVisionLanguage（Yi-VL），現(xiàn)已正式面向全球開源。同屬Yi系列，同樣具有兩個版本： Yi-VL-34B和Yi-VL-6B。先來看兩個例子，感...

原文來源：量子位

圖片來源：由無界 AI生成

領(lǐng)跑中英文兩大權(quán)威榜單，李開復(fù)零一萬物交出多模態(tài)大模型答卷！

距離其首款開源大模型Yi-34B和Yi-6B的發(fā)布，僅間隔不到三個月的時間。

模型名為Yi Vision Language（Yi-VL），現(xiàn)已正式面向全球開源。

同屬Yi系列，同樣具有兩個版本：

Yi-VL-34B和Yi-VL-6B。

先來看兩個例子，感受一波Yi-VL在圖文對話等多元場景中的表現(xiàn)：

Yi-VL對整幅圖做了詳細(xì)分析，不僅說明了指示牌上的內(nèi)容，甚至連“天花板”都有照顧到。

中文方面，Yi-VL也能清晰有條理地準(zhǔn)確表達(dá)：

此外，官方也給出了測試結(jié)果。

Yi-VL-34B在英文數(shù)據(jù)集MMMU上準(zhǔn)確率41.6%，僅次于準(zhǔn)確率55.7%的GPT-4V，超越一系列多模態(tài)大模型。

而在中文數(shù)據(jù)集CMMMU上，Yi-VL-34B準(zhǔn)確率36.5%，領(lǐng)先于當(dāng)前最前沿的開源多模態(tài)模型。

Yi-VL長啥樣？

Yi-VL基于Yi語言模型研發(fā)，可以看到基于Yi語言模型的強(qiáng)大文本理解能力，只需對圖片進(jìn)行對齊，就可以得到不錯的多模態(tài)視覺語言模型——這也是Yi-VL模型的核心亮點(diǎn)之一。

在架構(gòu)設(shè)計上，Yi-VL模型基于開源LLaVA架構(gòu)，包含三個主要模塊：

Vision Transformer（簡稱ViT）用于圖像編碼，使用開源的OpenClip ViT-H/14模型初始化可訓(xùn)練參數(shù)，通過學(xué)習(xí)從大規(guī)?！眻D像-文本”對中提取特征，使模型具備處理和理解圖像的能力。
Projection模塊為模型帶來了圖像特征與文本特征空間對齊的能力。該模塊由一個包含層歸一化（layer normalizations）的多層感知機(jī)（Multilayer Perceptron，簡稱MLP）構(gòu)成。這一設(shè)計使得模型可以更有效地融合和處理視覺和文本信息，提高了多模態(tài)理解和生成的準(zhǔn)確度。
Yi-34B-Chat和Yi-6B-Chat大語言模型的引入為 Yi-VL 提供了強(qiáng)大的語言理解和生成能力。該部分模型借助先進(jìn)的自然語言處理技術(shù)，能夠幫助Yi-VL深入理解復(fù)雜的語言結(jié)構(gòu)，并生成連貫、相關(guān)的文本輸出。

△圖說：Yi-VL模型架構(gòu)設(shè)計和訓(xùn)練方法流程一覽

在訓(xùn)練方法上，Yi-VL模型的訓(xùn)練過程分為三個階段，旨在全面提升模型的視覺和語言處理能力。

第一階段，使用1億張的“圖像-文本”配對數(shù)據(jù)集訓(xùn)練ViT和Projection模塊。

在這一階段，圖像分辨率被設(shè)定為224x224，以增強(qiáng)ViT在特定架構(gòu)中的知識獲取能力，同時實(shí)現(xiàn)與大型語言模型的高效對齊。

第二階段，將ViT的圖像分辨率提升至448x448，讓模型更加擅長識別復(fù)雜的視覺細(xì)節(jié)。此階段使用了約2500萬“圖像-文本”對。

第三階段，開放整個模型的參數(shù)進(jìn)行訓(xùn)練，目標(biāo)是提高模型在多模態(tài)聊天互動中的表現(xiàn)。訓(xùn)練數(shù)據(jù)涵蓋了多樣化的數(shù)據(jù)源，共約100萬“圖像-文本”對，確保了數(shù)據(jù)的廣泛性和平衡性。

零一萬物技術(shù)團(tuán)隊(duì)同時也驗(yàn)證了可以基于Yi語言模型強(qiáng)大的語言理解和生成能力，用其他多模態(tài)訓(xùn)練方法比如BLIP、Flamingo、EVA等快速訓(xùn)練出能夠進(jìn)行高效圖像理解和流暢圖文對話的多模態(tài)圖文模型。

Yi系列模型可以作為多模態(tài)模型的基座語言模型，給開源社區(qū)提供一個新的選項(xiàng)。同時，零一萬物多模態(tài)團(tuán)隊(duì)正在探索從頭開始進(jìn)行多模態(tài)預(yù)訓(xùn)練，更快接近、超過GPT-4V，達(dá)到世界第一梯隊(duì)水平。

目前，Yi-VL模型已在Hugging Face、ModelScope等平臺上向公眾開放，用戶可親身體驗(yàn)這款模型在圖文對話等多元場景中的表現(xiàn)。

超越一系列多模態(tài)大模型

在全新多模態(tài)基準(zhǔn)測試MMMU中，Yi-VL-34B、Yi-VL-6B兩個版本均有不俗表現(xiàn)。

MMMU（全名Massive Multi-discipline Multi-modal Understanding & Reasoning 大規(guī)模多學(xué)科多模態(tài)理解和推理）數(shù)據(jù)集包含了11500個來自六大核心學(xué)科（藝術(shù)與設(shè)計、商業(yè)、科學(xué)、健康與醫(yī)學(xué)、人文與社會科學(xué)以及技術(shù)與工程）的問題，涉及高度異構(gòu)圖像類型和交織文本圖像信息，對模型的高級知覺和推理能力提出了極高要求。

而Yi-VL-34B在該測試集上以41.6%的準(zhǔn)確率，成功超越了一系列多模態(tài)大模型，僅次于GPT-4V（55.7%），展現(xiàn)出強(qiáng)大的跨學(xué)科知識理解和應(yīng)用能力。

同樣，在針對中文場景打造的CMMMU數(shù)據(jù)集上，Yi-VL模型展現(xiàn)了“更懂中國人”的獨(dú)特優(yōu)勢。

CMMMU包含了約12000道源自大學(xué)考試、測驗(yàn)和教科書的中文多模態(tài)問題。

其中，GPT-4V在該測試集上的準(zhǔn)確率為43.7%， Yi-VL-34B以36.5%的準(zhǔn)確率緊隨其后，領(lǐng)先于當(dāng)前最前沿的開源多模態(tài)模型。

項(xiàng)目地址：
[1]https://huggingface.co/01-ai
[2]https://www.modelscope.cn/organization/01ai

本站提醒：投資有風(fēng)險，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財建議。

世界頂尖多模態(tài)大模型開源！又是零一萬物，又是李開復(fù)

Yi-VL長啥樣？

△圖說：Yi-VL模型架構(gòu)設(shè)計和訓(xùn)練方法流程一覽

超越一系列多模態(tài)大模型

世界頂尖多模態(tài)大模型開源！又是零一萬物，又是李開復(fù)

Yi-VL長啥樣？