首頁(yè) > 區(qū)塊鏈 > 谷歌Gemini技術(shù)報(bào)告出爐，作者多達(dá)900余人

谷歌Gemini技術(shù)報(bào)告出爐，作者多達(dá)900余人

時(shí)間：2023-12-21 14:22:05

來(lái)源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #谷歌Gemini技術(shù)報(bào)告出爐，作者多達(dá)900余人#】

從此以后，Google Scholar 數(shù)據(jù)該出問(wèn)題了。

原文來(lái)源：機(jī)器之心

圖片來(lái)源：由無(wú)界 AI生成

備受期待的谷歌 Gemini 技術(shù)報(bào)告完整版，今天終于出爐了。

兩周前，人們興奮于谷歌提出的「原生多模態(tài)大模型」Gemini，其宣稱超越 GPT-4 的強(qiáng)大性能，以及對(duì)于圖像、視頻等領(lǐng)域的理解能力讓人們似乎看到了未來(lái)。不過(guò)由于谷歌演示的 demo 涉嫌夸大效果，Gemini 又很快陷入了爭(zhēng)議。

但作為生成式 AI 領(lǐng)域最近的重要進(jìn)展，人們對(duì)于 Gemini 的期待越來(lái)越高，有團(tuán)隊(duì)很快進(jìn)行研究發(fā)了測(cè)試論文。今天發(fā)布的 64 頁(yè)技術(shù)報(bào)告，或許可以為我們的許多疑惑進(jìn)行更加直觀的解釋。

這篇技術(shù)報(bào)告《Gemini: A Family of Highly Capable Multimodal Models》作者包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一眾谷歌研究大佬，另外還有謝爾蓋?布林這樣的公司聯(lián)合創(chuàng)始人。

論文鏈接：https://arxiv.org/abs/2312.11805

另外，該文章的作者數(shù)量也奪人眼球 ——941 個(gè)人，搞得 arXiv 網(wǎng)頁(yè)都有點(diǎn)卡：

一頁(yè)顯示不過(guò)來(lái)。

從文章第 35 頁(yè)起，谷歌開(kāi)始羅列所有「貢獻(xiàn)者」，從 Team Leader 到主要貢獻(xiàn)者，再到貢獻(xiàn)者分門(mén)別類寫(xiě)到了第 45 頁(yè)，看起來(lái)之前各路媒體說(shuō)谷歌在 Gemini 上投入了大量工程師，的確是沒(méi)說(shuō)錯(cuò)。

谷歌表示，在每個(gè)任務(wù)方向上，人們對(duì) Gemini 所做的貢獻(xiàn)是同等重要的，名字按隨機(jī)順序列出。Gemini 是一項(xiàng)跨谷歌內(nèi)部多團(tuán)隊(duì)的工作，成員來(lái)自 Google DeepMind、Google Research、Knowledge and Information、Core ML、Cloud、Labs 等部門(mén)。

此外還有提供了支持的團(tuán)隊(duì)和人（比如公司 CEO 桑達(dá)爾?皮查伊），以及沒(méi)有列出的很多谷歌內(nèi)部貢獻(xiàn)者。

對(duì)此有人吐槽道，論文作者比解釋技術(shù)寫(xiě)的還長(zhǎng)，你這怕不是在水字?jǐn)?shù)？

光是這些花費(fèi)在這些工程師、科學(xué)家們身上的工資每年就有上億美元。

在技術(shù)報(bào)告中，谷歌表示 Gemini 是一個(gè)多模態(tài)大模型體系，它在圖像、音頻、視頻和文本理解方面表現(xiàn)出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三個(gè)版本，適用于從復(fù)雜推理任務(wù)到移動(dòng)設(shè)備的各種應(yīng)用。

通過(guò)在大量基準(zhǔn)的跑分表明，功能最強(qiáng)大的 Gemini Ultra 在 32 個(gè)基準(zhǔn)中的 30 個(gè)中刷新了 SOTA（業(yè)內(nèi)最佳）水平。谷歌特別指出，Gemini 是第一個(gè)在經(jīng)過(guò)充分研究的考試基準(zhǔn) MMLU 上實(shí)現(xiàn)人類專家表現(xiàn)的模型。谷歌相信，Gemini 在跨模態(tài)推理和語(yǔ)言理解方面的突出能力將支持各種用例。

以下圖所示的教育環(huán)境為例，老師畫(huà)了一個(gè)滑雪者從斜坡上滑下的物理問(wèn)題，學(xué)生試圖進(jìn)行解答。利用 Gemini 的多模態(tài)推理能力，該模型能夠理解凌亂的筆跡，正確理解問(wèn)題的表述，將問(wèn)題和解決方案都轉(zhuǎn)換為數(shù)學(xué)排版，識(shí)別學(xué)生在解決問(wèn)題時(shí)出錯(cuò)的具體推理步驟，然后給出問(wèn)題的正確解法。

圖 1，筆記識(shí)別，解答物理問(wèn)題。

Gemini 的推理能力展示了構(gòu)建能解決更復(fù)雜多步驟問(wèn)題的通用智能體的前景，比如谷歌基于 Gemini 提出了 AlphaCode 2。在移動(dòng)設(shè)備上，Gemini Nano 在摘要、閱讀理解、文本填充任務(wù)等任務(wù)中表現(xiàn)出色，也體現(xiàn)了推理、STEM、編碼、多模態(tài)和多語(yǔ)言任務(wù)的能力。

在文章的技術(shù)解釋部分中，谷歌概述了 Gemini 的模型架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施和訓(xùn)練數(shù)據(jù)集，對(duì) Gemini 模型系列進(jìn)行了詳細(xì)評(píng)估，涵蓋文本、代碼、圖像、音頻和視頻方面。谷歌討論了模型審核與部署方法，最后也討論了 Gemini 的更廣泛影響、局限性及其潛在應(yīng)用。

模型架構(gòu)

Gemini 1.0 有三種尺寸 Ultra 、 Pro 以及 Nano ，如下所示：

Ultra：可以在各種高度復(fù)雜的任務(wù)中提供SOTA性能，包括推理和多模態(tài)任務(wù)。它還可以在TPU加速器上有效地進(jìn)行大規(guī)模服務(wù)；
Pro：是谷歌在成本和延遲方面進(jìn)行性能優(yōu)化的模型，可在各種任務(wù)中提供良好的性能，并表現(xiàn)出強(qiáng)大的推理性能和廣泛的多模態(tài)能力；
Nano：谷歌最高效的模型，專為在設(shè)備上運(yùn)行而設(shè)計(jì)。谷歌訓(xùn)練了兩個(gè)版本的 Nano，參數(shù)分別為 1.8B (Nano-1) 和 3.25B (Nano-2)，分別針對(duì)低內(nèi)存和高內(nèi)存設(shè)備，采用 4 位量化進(jìn)行部署，并提供一流的性能。

Gemini 的輸入有多種形式，如文本、音頻、圖片、視頻等，如下圖2所示。值得一提的是，Gemini是原生多模態(tài)的。

Gemini 的視頻理解能力是通過(guò)將視頻編碼為大上下文窗口中的幀序列來(lái)完成的。視頻幀或圖像可以自然地與文本或音頻交織，作為模型輸入的一部分。Gemini 模型可以處理可變的輸入分辨率，以便將更多的計(jì)算花費(fèi)在需要細(xì)粒度理解的任務(wù)上。?

此外，Gemini 可以直接從通用語(yǔ)音模型 (USM) 功能中攝取 16kHz 的音頻信號(hào)。這使得模型能夠捕獲當(dāng)音頻被簡(jiǎn)單地映射到文本輸入時(shí)通常會(huì)丟失的細(xì)微差別。

訓(xùn)練基礎(chǔ)設(shè)施

谷歌使用 TPUv5e 和 TPUv4 訓(xùn)練 Gemini 模型，具體取決于模型的大小和配置。其中，訓(xùn)練 Gemini Ultra 使用跨多個(gè)數(shù)據(jù)中心的大量 TPUv4 加速器，相比于 PaLM-2，規(guī)模顯著增加，帶來(lái)了新的基礎(chǔ)設(shè)施挑戰(zhàn)。

增加加速器的數(shù)量會(huì)導(dǎo)致整個(gè)系統(tǒng)中硬件的平均故障間隔時(shí)間成比例地減少。因此，谷歌最大限度地減少了計(jì)劃重新規(guī)劃和搶占的比率，但實(shí)際上機(jī)器故障在如此大規(guī)模的硬件加速器中很常見(jiàn)。?

TPUv4 加速器部署在 4096 個(gè)芯片的「SuperPod」中，每個(gè)芯片連接到一個(gè)專用光開(kāi)關(guān)，可以在大約 10 秒內(nèi)將 4x4x4 芯片cube動(dòng)態(tài)重新配置為任意 3D 環(huán)面拓?fù)?。?duì)于 Gemini Ultra，谷歌為每個(gè)超級(jí)容器保留少量cube，以實(shí)現(xiàn)熱備用和滾動(dòng)維護(hù)。

TPU 加速器主要通過(guò)高速芯片間互連進(jìn)行通信，但對(duì)于 Gemini Ultra，谷歌使用其集群內(nèi)和集群間網(wǎng)絡(luò)在多個(gè)數(shù)據(jù)中心中組合 SuperPod。

使用定期檢查持久集群存儲(chǔ)權(quán)重的傳統(tǒng)方法，在這種規(guī)模下維持高吞吐量是不可能的。因此谷歌為 Gemini 使用了模型狀態(tài)的冗余內(nèi)存副本，并且在任何計(jì)劃外的硬件故障中，Gemini 可以直接從完整的模型副本中快速恢復(fù)。與 PaLM 和 PaLM-2 相比，盡管使用的訓(xùn)練資源要大得多，但恢復(fù)速度顯著加快。

最終，最大規(guī)模訓(xùn)練 job 的整體吞吐量從 85% 增加到 97%。

Gemini 模型是在多模態(tài)和多語(yǔ)言數(shù)據(jù)集上進(jìn)行訓(xùn)練的，預(yù)訓(xùn)練數(shù)據(jù)集使用來(lái)自網(wǎng)絡(luò)文檔、書(shū)籍和代碼的數(shù)據(jù)，包括圖像、音頻和視頻數(shù)據(jù)。谷歌使用了 SentencePiece tokenizer，并發(fā)現(xiàn)在整個(gè)訓(xùn)練語(yǔ)料庫(kù)的大樣本上訓(xùn)練 tokenizer 可以提高推斷詞匯量，從而提高模型性能。

此外，谷歌還使用啟發(fā)式規(guī)則和基于模型的 tokenizer 對(duì)所有數(shù)據(jù)集應(yīng)用質(zhì)量過(guò)濾器，并執(zhí)行安全過(guò)濾以刪除有害內(nèi)容。

評(píng)估

Gemini 模型本質(zhì)上是多模態(tài)模型，跨文本、圖像、音頻和視頻數(shù)據(jù)聯(lián)合訓(xùn)練。一個(gè)懸而未決的問(wèn)題是，這種聯(lián)合訓(xùn)練是否能夠產(chǎn)生一種在每個(gè)領(lǐng)域都具有強(qiáng)大能力的模型 —— 即使與針對(duì)單個(gè)領(lǐng)域進(jìn)行定制的模型相比也是如此。谷歌進(jìn)行了一系列的評(píng)估實(shí)驗(yàn)證明：Gemini 在廣泛的文本、圖像、音頻和視頻基準(zhǔn)上實(shí)現(xiàn)了新的 SOTA 水平。?

文本

谷歌將 Gemini Pro 和 Gemini Ultra 與多個(gè)外部 LLM 以及谷歌之前的最佳模型 PaLM 2 進(jìn)行了一系列基于文本的學(xué)術(shù)基準(zhǔn)比較，涵蓋推理、閱讀理解、STEM 和編碼。實(shí)驗(yàn)結(jié)果如下表 2 所示：

谷歌還通過(guò)在六種不同能力的 50 多個(gè)基準(zhǔn)上進(jìn)行評(píng)估，檢查了 Gemini 模型的能力趨勢(shì)，涵蓋：

開(kāi)卷 / 閉卷檢索和問(wèn)答任務(wù)，要求「事實(shí)性」；
長(zhǎng)上下文摘要、檢索和問(wèn)答任務(wù)；
數(shù)學(xué) / 科學(xué)問(wèn)題解決、定理證明和考試；?
需要算術(shù)、科學(xué)和常識(shí)的「推理」任務(wù)；
用多種語(yǔ)言進(jìn)行翻譯、摘要和推理的「多語(yǔ)言」任務(wù)。

評(píng)估結(jié)果如下圖表所示：

下表 3 更深入地探討了 Gemini 在特定的事實(shí)、編碼、數(shù)學(xué) / 科學(xué)和推理任務(wù)上的性能。其中，Gemini Nano-1 和 Gemini Nano-2 的模型大小分別為 1.8B 和 3.25B。

值得一提的是，經(jīng)過(guò)指令調(diào)整的 Gemini Pro 模型在一系列功能上表現(xiàn)出巨大的改進(jìn)：

多模態(tài)

Gemini 模型是從頭開(kāi)始以多模態(tài)為目標(biāo)構(gòu)建的。它表現(xiàn)出了獨(dú)特的能力，可以將跨模態(tài)的功能（例如，從表格、圖表或圖形中提取信息和空間布局）與語(yǔ)言模型的強(qiáng)大推理能力（如先進(jìn)的推理能力）無(wú)縫地結(jié)合起來(lái)。

如圖 5 和圖 12 中的示例所示，這些模型在識(shí)別輸入內(nèi)容中的細(xì)粒度細(xì)節(jié)、跨空間和時(shí)間聚合上下文，以及將這些功能應(yīng)用于時(shí)間相關(guān)的視頻序列方面也表現(xiàn)出強(qiáng)大的能力。

圖 5、Gemini 的多模態(tài)推理功能可生成用于重新排列子圖的 matplotlib 代碼。

表 7、Gemini Ultra 在圖像理解基準(zhǔn)上的能力。

谷歌發(fā)現(xiàn)，Gemini Ultra 在各種圖像理解基準(zhǔn)測(cè)試中都是最先進(jìn)的。

Gemini 模型還能夠同時(shí)跨模態(tài)和理解多種語(yǔ)言。

表 9、多語(yǔ)言圖像理解。

Gemini Ultra 在各種 few-shot 視頻字幕任務(wù)以及 zero-shot 視頻問(wèn)答任務(wù)上取得了最先進(jìn)的結(jié)果。

表 10、在選定的學(xué)術(shù)基準(zhǔn)上跨任務(wù)和語(yǔ)言的 few-shot 視頻理解。

圖 6 顯示了 one-shot 情況下的圖像生成示例。

圖 6、圖像生成。在給出由圖像和文本組成的提示的情況下，Gemini 可以輸出與文本交錯(cuò)的多個(gè)圖像。

有關(guān)語(yǔ)音理解能力，表 11 表明，無(wú)論是在英語(yǔ)還是多語(yǔ)言測(cè)試集上，Gemini Pro 模型在所有 ASR（語(yǔ)音識(shí)別）和 AST（自動(dòng)語(yǔ)音翻譯）任務(wù)中顯著優(yōu)于 USM 和 Whisper 模型。

表 11、ASR 和 AST 選定基準(zhǔn)的語(yǔ)音評(píng)估結(jié)果。

安全性

谷歌表示，在 Gemini 模型的開(kāi)發(fā)過(guò)程中遵循了結(jié)構(gòu)化方法進(jìn)行負(fù)責(zé)任的部署，以便識(shí)別、衡量和管理大模型的可預(yù)見(jiàn)社會(huì)影響，這與 Google 人工智能技術(shù)的先前版本一致。

結(jié)語(yǔ)

谷歌在技術(shù)報(bào)告中表示，目前有關(guān) Gemini 大模型的各種測(cè)試和用例，可能只涉及了其潛力的很小一部分。谷歌期待更多公司在更多場(chǎng)景上使用新的模型。

Gemini 為谷歌開(kāi)發(fā)一個(gè)大規(guī)模、模塊化的系統(tǒng)，實(shí)現(xiàn)最大泛化能力的目標(biāo)提供了堅(jiān)實(shí)基礎(chǔ)。

小編推薦下載