hao86下載站:值得大家信賴的游戲下載站!

首頁(yè) > 區(qū)塊鏈 > 谷歌Gemini技術(shù)報(bào)告出爐,作者多達(dá)900余人

谷歌Gemini技術(shù)報(bào)告出爐,作者多達(dá)900余人

時(shí)間:2023-12-21 14:22:05
來(lái)源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #谷歌Gemini技術(shù)報(bào)告出爐,作者多達(dá)900余人#】

從此以后,Google Scholar 數(shù)據(jù)該出問(wèn)題了。

原文來(lái)源:機(jī)器之心

圖片來(lái)源:由無(wú)界 AI生成

備受期待的谷歌 Gemini 技術(shù)報(bào)告完整版,今天終于出爐了。

兩周前,人們興奮于谷歌提出的「原生多模態(tài)大模型」Gemini,其宣稱超越 GPT-4 的強(qiáng)大性能,以及對(duì)于圖像、視頻等領(lǐng)域的理解能力讓人們似乎看到了未來(lái)。不過(guò)由于谷歌演示的 demo 涉嫌夸大效果,Gemini 又很快陷入了爭(zhēng)議。

但作為生成式 AI 領(lǐng)域最近的重要進(jìn)展,人們對(duì)于 Gemini 的期待越來(lái)越高,有團(tuán)隊(duì)很快進(jìn)行研究發(fā)了測(cè)試論文。今天發(fā)布的 64 頁(yè)技術(shù)報(bào)告,或許可以為我們的許多疑惑進(jìn)行更加直觀的解釋。

這篇技術(shù)報(bào)告《Gemini: A Family of Highly Capable Multimodal Models》作者包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一眾谷歌研究大佬,另外還有謝爾蓋?布林這樣的公司聯(lián)合創(chuàng)始人。

論文鏈接:https://arxiv.org/abs/2312.11805

另外,該文章的作者數(shù)量也奪人眼球 ——941 個(gè)人,搞得 arXiv 網(wǎng)頁(yè)都有點(diǎn)卡:

一頁(yè)顯示不過(guò)來(lái)。

從文章第 35 頁(yè)起,谷歌開(kāi)始羅列所有「貢獻(xiàn)者」,從 Team Leader 到主要貢獻(xiàn)者,再到貢獻(xiàn)者分門(mén)別類寫(xiě)到了第 45 頁(yè),看起來(lái)之前各路媒體說(shuō)谷歌在 Gemini 上投入了大量工程師,的確是沒(méi)說(shuō)錯(cuò)。

谷歌表示,在每個(gè)任務(wù)方向上,人們對(duì) Gemini 所做的貢獻(xiàn)是同等重要的,名字按隨機(jī)順序列出。Gemini 是一項(xiàng)跨谷歌內(nèi)部多團(tuán)隊(duì)的工作,成員來(lái)自 Google DeepMind、Google Research、Knowledge and Information、Core ML、Cloud、Labs 等部門(mén)。

此外還有提供了支持的團(tuán)隊(duì)和人(比如公司 CEO 桑達(dá)爾?皮查伊),以及沒(méi)有列出的很多谷歌內(nèi)部貢獻(xiàn)者。

對(duì)此有人吐槽道,論文作者比解釋技術(shù)寫(xiě)的還長(zhǎng),你這怕不是在水字?jǐn)?shù)?

光是這些花費(fèi)在這些工程師、科學(xué)家們身上的工資每年就有上億美元。

在技術(shù)報(bào)告中,谷歌表示 Gemini 是一個(gè)多模態(tài)大模型體系,它在圖像、音頻、視頻和文本理解方面表現(xiàn)出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三個(gè)版本,適用于從復(fù)雜推理任務(wù)到移動(dòng)設(shè)備的各種應(yīng)用。

通過(guò)在大量基準(zhǔn)的跑分表明,功能最強(qiáng)大的 Gemini Ultra 在 32 個(gè)基準(zhǔn)中的 30 個(gè)中刷新了 SOTA(業(yè)內(nèi)最佳)水平。谷歌特別指出,Gemini 是第一個(gè)在經(jīng)過(guò)充分研究的考試基準(zhǔn) MMLU 上實(shí)現(xiàn)人類專家表現(xiàn)的模型。谷歌相信,Gemini 在跨模態(tài)推理和語(yǔ)言理解方面的突出能力將支持各種用例。

以下圖所示的教育環(huán)境為例,老師畫(huà)了一個(gè)滑雪者從斜坡上滑下的物理問(wèn)題,學(xué)生試圖進(jìn)行解答。利用 Gemini 的多模態(tài)推理能力,該模型能夠理解凌亂的筆跡,正確理解問(wèn)題的表述,將問(wèn)題和解決方案都轉(zhuǎn)換為數(shù)學(xué)排版,識(shí)別學(xué)生在解決問(wèn)題時(shí)出錯(cuò)的具體推理步驟,然后給出問(wèn)題的正確解法。

圖 1,筆記識(shí)別,解答物理問(wèn)題。

Gemini 的推理能力展示了構(gòu)建能解決更復(fù)雜多步驟問(wèn)題的通用智能體的前景,比如谷歌基于 Gemini 提出了 AlphaCode 2。在移動(dòng)設(shè)備上,Gemini Nano 在摘要、閱讀理解、文本填充任務(wù)等任務(wù)中表現(xiàn)出色,也體現(xiàn)了推理、STEM、編碼、多模態(tài)和多語(yǔ)言任務(wù)的能力。

在文章的技術(shù)解釋部分中,谷歌概述了 Gemini 的模型架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施和訓(xùn)練數(shù)據(jù)集,對(duì) Gemini 模型系列進(jìn)行了詳細(xì)評(píng)估,涵蓋文本、代碼、圖像、音頻和視頻方面。谷歌討論了模型審核與部署方法,最后也討論了 Gemini 的更廣泛影響、局限性及其潛在應(yīng)用。

模型架構(gòu)

Gemini 1.0 有三種尺寸 Ultra 、 Pro 以及 Nano ,如下所示:

  • Ultra:可以在各種高度復(fù)雜的任務(wù)中提供SOTA性能,包括推理和多模態(tài)任務(wù)。它還可以在TPU加速器上有效地進(jìn)行大規(guī)模服務(wù);
  • Pro:是谷歌在成本和延遲方面進(jìn)行性能優(yōu)化的模型,可在各種任務(wù)中提供良好的性能,并表現(xiàn)出強(qiáng)大的推理性能和廣泛的多模態(tài)能力;
  • Nano:谷歌最高效的模型,專為在設(shè)備上運(yùn)行而設(shè)計(jì)。谷歌訓(xùn)練了兩個(gè)版本的 Nano,參數(shù)分別為 1.8B (Nano-1) 和 3.25B (Nano-2),分別針對(duì)低內(nèi)存和高內(nèi)存設(shè)備,采用 4 位量化進(jìn)行部署,并提供一流的性能。

Gemini 的輸入有多種形式,如文本、音頻、圖片、視頻等,如下圖2所示。值得一提的是,Gemini是原生多模態(tài)的。

Gemini 的視頻理解能力是通過(guò)將視頻編碼為大上下文窗口中的幀序列來(lái)完成的。視頻幀或圖像可以自然地與文本或音頻交織,作為模型輸入的一部分。Gemini 模型可以處理可變的輸入分辨率,以便將更多的計(jì)算花費(fèi)在需要細(xì)粒度理解的任務(wù)上。?

此外,Gemini 可以直接從通用語(yǔ)音模型 (USM) 功能中攝取 16kHz 的音頻信號(hào)。這使得模型能夠捕獲當(dāng)音頻被簡(jiǎn)單地映射到文本輸入時(shí)通常會(huì)丟失的細(xì)微差別。

訓(xùn)練基礎(chǔ)設(shè)施

谷歌使用 TPUv5e 和 TPUv4 訓(xùn)練 Gemini 模型,具體取決于模型的大小和配置。其中,訓(xùn)練 Gemini Ultra 使用跨多個(gè)數(shù)據(jù)中心的大量 TPUv4 加速器,相比于 PaLM-2,規(guī)模顯著增加,帶來(lái)了新的基礎(chǔ)設(shè)施挑戰(zhàn)。

增加加速器的數(shù)量會(huì)導(dǎo)致整個(gè)系統(tǒng)中硬件的平均故障間隔時(shí)間成比例地減少。因此,谷歌最大限度地減少了計(jì)劃重新規(guī)劃和搶占的比率,但實(shí)際上機(jī)器故障在如此大規(guī)模的硬件加速器中很常見(jiàn)。?

TPUv4 加速器部署在 4096 個(gè)芯片的「SuperPod」中,每個(gè)芯片連接到一個(gè)專用光開(kāi)關(guān),可以在大約 10 秒內(nèi)將 4x4x4 芯片cube動(dòng)態(tài)重新配置為任意 3D 環(huán)面拓?fù)?。?duì)于 Gemini Ultra,谷歌為每個(gè)超級(jí)容器保留少量cube,以實(shí)現(xiàn)熱備用和滾動(dòng)維護(hù)。

TPU 加速器主要通過(guò)高速芯片間互連進(jìn)行通信,但對(duì)于 Gemini Ultra,谷歌使用其集群內(nèi)和集群間網(wǎng)絡(luò)在多個(gè)數(shù)據(jù)中心中組合 SuperPod。

使用定期檢查持久集群存儲(chǔ)權(quán)重的傳統(tǒng)方法,在這種規(guī)模下維持高吞吐量是不可能的。因此谷歌為 Gemini 使用了模型狀態(tài)的冗余內(nèi)存副本,并且在任何計(jì)劃外的硬件故障中,Gemini 可以直接從完整的模型副本中快速恢復(fù)。與 PaLM 和 PaLM-2 相比,盡管使用的訓(xùn)練資源要大得多,但恢復(fù)速度顯著加快。

最終,最大規(guī)模訓(xùn)練 job 的整體吞吐量從 85% 增加到 97%。

Gemini 模型是在多模態(tài)和多語(yǔ)言數(shù)據(jù)集上進(jìn)行訓(xùn)練的,預(yù)訓(xùn)練數(shù)據(jù)集使用來(lái)自網(wǎng)絡(luò)文檔、書(shū)籍和代碼的數(shù)據(jù),包括圖像、音頻和視頻數(shù)據(jù)。谷歌使用了 SentencePiece tokenizer,并發(fā)現(xiàn)在整個(gè)訓(xùn)練語(yǔ)料庫(kù)的大樣本上訓(xùn)練 tokenizer 可以提高推斷詞匯量,從而提高模型性能。

此外,谷歌還使用啟發(fā)式規(guī)則和基于模型的 tokenizer 對(duì)所有數(shù)據(jù)集應(yīng)用質(zhì)量過(guò)濾器,并執(zhí)行安全過(guò)濾以刪除有害內(nèi)容。

評(píng)估

Gemini 模型本質(zhì)上是多模態(tài)模型,跨文本、圖像、音頻和視頻數(shù)據(jù)聯(lián)合訓(xùn)練。一個(gè)懸而未決的問(wèn)題是,這種聯(lián)合訓(xùn)練是否能夠產(chǎn)生一種在每個(gè)領(lǐng)域都具有強(qiáng)大能力的模型 —— 即使與針對(duì)單個(gè)領(lǐng)域進(jìn)行定制的模型相比也是如此。谷歌進(jìn)行了一系列的評(píng)估實(shí)驗(yàn)證明:Gemini 在廣泛的文本、圖像、音頻和視頻基準(zhǔn)上實(shí)現(xiàn)了新的 SOTA 水平。?

文本

谷歌將 Gemini Pro 和 Gemini Ultra 與多個(gè)外部 LLM 以及谷歌之前的最佳模型 PaLM 2 進(jìn)行了一系列基于文本的學(xué)術(shù)基準(zhǔn)比較,涵蓋推理、閱讀理解、STEM 和編碼。實(shí)驗(yàn)結(jié)果如下表 2 所示:

谷歌還通過(guò)在六種不同能力的 50 多個(gè)基準(zhǔn)上進(jìn)行評(píng)估,檢查了 Gemini 模型的能力趨勢(shì),涵蓋:

  • 開(kāi)卷 / 閉卷檢索和問(wèn)答任務(wù),要求「事實(shí)性」;
  • 長(zhǎng)上下文摘要、檢索和問(wèn)答任務(wù);
  • 數(shù)學(xué) / 科學(xué)問(wèn)題解決、定理證明和考試;?
  • 需要算術(shù)、科學(xué)和常識(shí)的「推理」任務(wù);
  • 用多種語(yǔ)言進(jìn)行翻譯、摘要和推理的「多語(yǔ)言」任務(wù)。

評(píng)估結(jié)果如下圖表所示:

下表 3 更深入地探討了 Gemini 在特定的事實(shí)、編碼、數(shù)學(xué) / 科學(xué)和推理任務(wù)上的性能。其中,Gemini Nano-1 和 Gemini Nano-2 的模型大小分別為 1.8B 和 3.25B。

值得一提的是,經(jīng)過(guò)指令調(diào)整的 Gemini Pro 模型在一系列功能上表現(xiàn)出巨大的改進(jìn):

多模態(tài)

Gemini 模型是從頭開(kāi)始以多模態(tài)為目標(biāo)構(gòu)建的。它表現(xiàn)出了獨(dú)特的能力,可以將跨模態(tài)的功能(例如,從表格、圖表或圖形中提取信息和空間布局)與語(yǔ)言模型的強(qiáng)大推理能力(如先進(jìn)的推理能力)無(wú)縫地結(jié)合起來(lái)。

如圖 5 和圖 12 中的示例所示,這些模型在識(shí)別輸入內(nèi)容中的細(xì)粒度細(xì)節(jié)、跨空間和時(shí)間聚合上下文,以及將這些功能應(yīng)用于時(shí)間相關(guān)的視頻序列方面也表現(xiàn)出強(qiáng)大的能力。

圖 5、Gemini 的多模態(tài)推理功能可生成用于重新排列子圖的 matplotlib 代碼。

表 7、Gemini Ultra 在圖像理解基準(zhǔn)上的能力。

谷歌發(fā)現(xiàn),Gemini Ultra 在各種圖像理解基準(zhǔn)測(cè)試中都是最先進(jìn)的。

Gemini 模型還能夠同時(shí)跨模態(tài)和理解多種語(yǔ)言。

表 9、多語(yǔ)言圖像理解。

Gemini Ultra 在各種 few-shot 視頻字幕任務(wù)以及 zero-shot 視頻問(wèn)答任務(wù)上取得了最先進(jìn)的結(jié)果。

表 10、在選定的學(xué)術(shù)基準(zhǔn)上跨任務(wù)和語(yǔ)言的 few-shot 視頻理解。

圖 6 顯示了 one-shot 情況下的圖像生成示例。

圖 6、圖像生成。在給出由圖像和文本組成的提示的情況下,Gemini 可以輸出與文本交錯(cuò)的多個(gè)圖像。

有關(guān)語(yǔ)音理解能力,表 11 表明,無(wú)論是在英語(yǔ)還是多語(yǔ)言測(cè)試集上,Gemini Pro 模型在所有 ASR(語(yǔ)音識(shí)別)和 AST(自動(dòng)語(yǔ)音翻譯)任務(wù)中顯著優(yōu)于 USM 和 Whisper 模型。

表 11、ASR 和 AST 選定基準(zhǔn)的語(yǔ)音評(píng)估結(jié)果。

安全性

谷歌表示,在 Gemini 模型的開(kāi)發(fā)過(guò)程中遵循了結(jié)構(gòu)化方法進(jìn)行負(fù)責(zé)任的部署,以便識(shí)別、衡量和管理大模型的可預(yù)見(jiàn)社會(huì)影響,這與 Google 人工智能技術(shù)的先前版本一致。

結(jié)語(yǔ)

谷歌在技術(shù)報(bào)告中表示,目前有關(guān) Gemini 大模型的各種測(cè)試和用例,可能只涉及了其潛力的很小一部分。谷歌期待更多公司在更多場(chǎng)景上使用新的模型。

Gemini 為谷歌開(kāi)發(fā)一個(gè)大規(guī)模、模塊化的系統(tǒng),實(shí)現(xiàn)最大泛化能力的目標(biāo)提供了堅(jiān)實(shí)基礎(chǔ)。

小編推薦下載

相關(guān)文章

更多>>

資訊排行

同類軟件下載