多模態(tài)大模型學(xué)雜了能力反下降？新研究：MoE+通用專家解決沖突

時(shí)間：2023-12-30 13:34:18

來(lái)源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #多模態(tài)大模型學(xué)雜了能力反下降？新研究：MoE+通用專家解決沖突#】

文章來(lái)源：量子位

圖片來(lái)源：由無(wú)界 AI生成

微調(diào)，能讓通用大模型更加適配具體的行業(yè)應(yīng)用。

但現(xiàn)在，研究人員們卻發(fā)現(xiàn)：

對(duì)多模態(tài)大模型做“多任務(wù)指令微調(diào)”，大模型可能會(huì)“學(xué)得多錯(cuò)得多”，因?yàn)椴煌蝿?wù)之間的沖突，導(dǎo)致泛化能力下降。

△多模態(tài)指令微調(diào)存在任務(wù)沖突

舉個(gè)例子，多模態(tài)問答任務(wù)可能要求回復(fù)盡可能簡(jiǎn)潔準(zhǔn)確，文檔理解任務(wù)卻會(huì)反過來(lái)要求大模型盡可能詳細(xì)地做出描述。

不同下游任務(wù)指令微調(diào)數(shù)據(jù)分布差異較大，導(dǎo)致一個(gè)大模型難以在多個(gè)下游任務(wù)中均達(dá)到最優(yōu)性能。

如何解決這個(gè)問題？

來(lái)自香港科技大學(xué)、南方科技大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的聯(lián)合研究團(tuán)隊(duì)，受MoE（混合專家模型）開源大模型Mixtral-8×7B的啟發(fā)，提出利用稀疏專家模型，打造下游任務(wù)泛化性能更好、理解能力更強(qiáng)的多模態(tài)大模型。

具體細(xì)節(jié)，一起來(lái)看。

多模態(tài)指令微調(diào)存在任務(wù)沖突

為了驗(yàn)證多模態(tài)指令微調(diào)中不同類型任務(wù)數(shù)據(jù)對(duì)模型性能的影響，研究人員將數(shù)據(jù)進(jìn)行如下劃分：

VQA（視覺問答）：VQAv2、OKVQA、A-OKVQA、OCRVQA，
Captioning（圖像描述）：COCO Caption、Web CapFilt、TextCaps，
Full(所有數(shù)據(jù))：VQA、Captioning、LLaVA-150k、VQG（視覺問題生成，基于VQA數(shù)據(jù)）。

基于以上數(shù)據(jù)，研究人員采用LoRA對(duì)InstructBLIP進(jìn)行微調(diào)，獲得3個(gè)專家模型，并在其他數(shù)據(jù)（Flickr30k-圖像描述、GQA/SciQA/IconQA/TextVQA等不同類型視覺問答、HM/VSR等多模態(tài)分類或推理任務(wù)）上進(jìn)行零樣本測(cè)試和評(píng)估。

從上圖（右）中可以看出，在指令微調(diào)中，并非采用全量數(shù)據(jù)會(huì)取得最好效果，相反，只有三個(gè)下游任務(wù)（GQA，VSR，TextVQA）在全量數(shù)據(jù)專家下表現(xiàn)最好。

這說(shuō)明，對(duì)于大部分任務(wù)來(lái)說(shuō)，在指令微調(diào)過程中引入其他任務(wù)的數(shù)據(jù)，反而會(huì)降低模型性能，多模態(tài)指令微調(diào)存在任務(wù)沖突。

另一方面，實(shí)驗(yàn)中觀察到，VQA和Captioning兩個(gè)專家模型，在各自任務(wù)中取得了相較于全量專家更好的表現(xiàn)。這樣的方法看似解決了任務(wù)沖突的問題，但存在以下局限：

不同訓(xùn)練任務(wù)的知識(shí)無(wú)法在任務(wù)專家之間共享；
訓(xùn)練的數(shù)據(jù)需要人為地劃分，當(dāng)訓(xùn)練數(shù)據(jù)種類較多時(shí)難以進(jìn)行；
新任務(wù)來(lái)臨時(shí)，需要人為判斷使用哪一個(gè)任務(wù)專家。

為了解決以上局限，研究團(tuán)隊(duì)提出，可以利用稀疏專家模型（MoE），不同的專家處理不同的任務(wù)，并設(shè)計(jì)一種數(shù)據(jù)劃分的方法，把相似的任務(wù)交給同一個(gè)專家處理。

基于指令聚類的稀疏專家多模態(tài)大模型

通過指令聚類劃分?jǐn)?shù)據(jù)

在大型視覺-語(yǔ)言模型（LVLM）中，該文定義指令為所有的文本輸入，如上圖（左）C1-C4的文本。

這些指令描述了任務(wù)的意圖、要求。因此，作者使用Kmeans將所有的指令聚為64類。

如上圖（右）所示，指令的聚類信息可以有效表示數(shù)據(jù)的任務(wù)類型。這樣做省去了人力劃分?jǐn)?shù)據(jù)的成本。

基于指令聚類信息進(jìn)行混合LoRA專家路由

和前面的任務(wù)專家相似，模型在該層的輸出同樣由凍結(jié)的LLM線性層以及微調(diào)的LoRA產(chǎn)生。

不同的是，這里利用數(shù)據(jù)的指令聚類信息來(lái)對(duì)混合LoRA進(jìn)行路由。具體而言，對(duì)于的模型的輸入，可以按照如下方式計(jì)算它的路由信息：

其中，topk()（考慮k=1的情況）保持前k個(gè)最大項(xiàng)不變，并將其他的設(shè)置為0，C是可學(xué)習(xí)的類別的嵌入表征，C[xi]表示xi對(duì)應(yīng)指令的聚類表征，Wgate是路由的線性參數(shù)。

通用專家提升模型泛化性

實(shí)驗(yàn)發(fā)現(xiàn)，上述的指令聚類LoRA專家的確緩解了任務(wù)沖突的問題，但由于一個(gè)專家可能只見過一部分任務(wù)，整個(gè)模型對(duì)下游任務(wù)的泛化性降低了。

因此，該研究團(tuán)隊(duì)提出用通用專家來(lái)從所有數(shù)據(jù)中學(xué)習(xí)指令泛化能力。

與MoE不同，除了通過top1選擇的任務(wù)專家，該方法還固定地激活一個(gè)通用專家，使得這個(gè)專家從所有的指令數(shù)據(jù)中學(xué)習(xí)。

因此，模型在該層輸出為L(zhǎng)LM原始凍結(jié)參數(shù)W，任務(wù)專家We和通用專家Wu的加權(quán)和。

在這樣的設(shè)計(jì)下，任務(wù)專家和通用專家的協(xié)同既提升了模型在和訓(xùn)練集相似任務(wù)的表現(xiàn)，又保障了模型對(duì)新任務(wù)的泛化能力。

實(shí)驗(yàn)效果

該論文遵循InstructBLIP的實(shí)驗(yàn)場(chǎng)景（數(shù)據(jù)使用、評(píng)估標(biāo)準(zhǔn)、訓(xùn)練細(xì)節(jié)），在13個(gè)訓(xùn)練數(shù)據(jù)集（包括VQA、Captioning、VQG等）上進(jìn)行指令微調(diào)并在11個(gè)測(cè)試數(shù)據(jù)集上評(píng)估（訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集沒有重疊）。

由上表所示，引入該文章提出的方法（MoCLE）后，InstructBLIP相較于基線模型在所有下游任務(wù)上都有提升，其中，在VSR，IconQA，TextVQA和MSVD-QA的提升尤為明顯。

上圖可視化了LLM某一層混合LoRA專家在不同數(shù)據(jù)下的路由結(jié)果，虛線上下方分別是訓(xùn)練和測(cè)試數(shù)據(jù)。(a)和(b)分別顯示了使用指令聚類信息和指令token平均表征作為路由的結(jié)果。

可以看到，使用指令聚類信息路由時(shí)，數(shù)據(jù)在專家中出現(xiàn)了分化。例如專家0主要負(fù)責(zé)VQA相關(guān)任務(wù)，專家2主要負(fù)責(zé)Captioning相關(guān)任務(wù)，有效實(shí)現(xiàn)專家的差異化。另一方面，使用指令token平均表征作為條件時(shí)，不同任務(wù)對(duì)專家的激活是相似的，沒有出現(xiàn)分化。

研究團(tuán)隊(duì)認(rèn)為，稀疏專家多模態(tài)大模型+通用專家模塊的組合，緩解了任務(wù)之間的沖突，還保證了稀疏模型對(duì)任務(wù)的泛化能力，使得多模態(tài)大模型能夠更有效地適配不同的下游行業(yè)應(yīng)用。

這是首個(gè)在多模態(tài)大模型指令微調(diào)中結(jié)合LoRA和稀疏專家模型（MoE）來(lái)緩解任務(wù)沖突并保持模型泛化能力的工作。
該工作證實(shí)了其應(yīng)對(duì)復(fù)雜下游任務(wù)的有效性，并未多模態(tài)大模型的應(yīng)用和發(fā)展開辟了新途徑。

論文鏈接：
https://arxiv.org/abs/2312.12379

小編推薦下載