當(dāng)前位置:區(qū)塊鏈 >區(qū)塊鏈 > 字節(jié)自研大模型,卻因用ChatGPT被封號惹爭議?官方回應(yīng)了

字節(jié)自研大模型,卻因用ChatGPT被封號惹爭議?官方回應(yīng)了

更新時間:2023-12-18 13:08:17 | 作者:佚名
沒想到,字節(jié)的大模型項目是被這樣曝光的。 原文來源:機器之心 圖片來源:由無界AI生成 上周末,有外媒報道稱,字節(jié)跳動在使用OpenAI技術(shù)開發(fā)自有大語言模型時,因違反OpenAI服務(wù)條款從而遭賬號禁用。 據(jù)TheVerge報道,字節(jié)跳動內(nèi)部正在研發(fā)的大語言模型項目名為「種子計劃」(ProjectSeed)。 由于訓(xùn)練大模型需要大量問答知識,該項目被曝出一...
沒想到,字節(jié)的大模型項目是被這樣曝光的。

原文來源:機器之心

圖片來源:由無界 AI生成

上周末,有外媒報道稱,字節(jié)跳動在使用 OpenAI 技術(shù)開發(fā)自有大語言模型時,因違反 OpenAI 服務(wù)條款從而遭賬號禁用。

據(jù) The Verge 報道,字節(jié)跳動內(nèi)部正在研發(fā)的大語言模型項目名為「種子計劃」(Project Seed)。

由于訓(xùn)練大模型需要大量問答知識,該項目被曝出一直在秘密使用 OpenAI 的技術(shù)來充實數(shù)據(jù)集。

在大模型領(lǐng)域,利用其他 AI 生成的內(nèi)容用于訓(xùn)練的「取巧」行為雖然并不少見,但經(jīng)常會被認(rèn)為是一種超出底線的行為。在 ChatGPT 上,濫用 AI 生成的數(shù)據(jù)直接違反了 OpenAI 的服務(wù)條款,其規(guī)定其模型輸出不能用于「開發(fā)任何與我們的產(chǎn)品和服務(wù)競爭的人工智能模型」。

在 11 月 14 日 OpenAI 對于 ChatGPT、DALL?E 的條款更新中還規(guī)定了用戶:

  • 不得進行逆向工程、反編譯或參與模型提取或竊取,包括模型和系統(tǒng);
  • 不得以自動或程序的方式提取生成內(nèi)容;
  • 不得把 ChatGPT 生成的內(nèi)容偽裝成人類生產(chǎn)的內(nèi)容。

OpenAI 對于違規(guī)用戶的處理辦法就是在通知后終止服務(wù)。

完整協(xié)議:https://openai.com/policies/business-terms

那么,字節(jié)跳動「種子計劃」的具體內(nèi)容以及如何被懷疑違反 OpenAI 使用條款的呢?

根據(jù) The Verge 獲得的內(nèi)部文件消息,字節(jié)跳動更多是在「種子計劃」的早期使用 OpenAI 的技術(shù),并在大約幾個月前指示該團隊在模型開發(fā)的任何階段停止使用 GPT 生成的文本。大約同一時期,字節(jié)跳動發(fā)布了自有 AI 大模型豆包(Doubao)。

相關(guān)員工非常清楚自身的行為,并討論過如何通過「數(shù)據(jù)脫敏」方式來進行規(guī)避。不過他們?nèi)匀唤?jīng)常達到 OpenAI API 的最大訪問上限。

當(dāng)?shù)貢r間周五,OpenAI表示,字節(jié)跳動的賬戶已被暫停使用。

OpenAI 發(fā)言人 Niko Felix 在給 The Verge 的一份聲明中表示,「所有 API 客戶都必須遵守 OpenAI 的使用條款,以確保我們的技術(shù)得到恰當(dāng)?shù)厥褂谩km然字節(jié)跳動對我們 API 的使用量很少,但在進一步調(diào)查的同時,我們已經(jīng)暫停他們的賬戶。如果最終發(fā)現(xiàn)字節(jié)跳動的使用不符合政策,則將要求他們進行必要的更改或終止他們的賬戶。」

字節(jié)跳動發(fā)言人 Jodi Seth 做出了回應(yīng),否認(rèn)公司有任何不當(dāng)行為,并澄清獲得了使用 GPT API 的權(quán)限。

她表示,「字節(jié)跳動已獲得微軟授權(quán),可以使用 GPT API。GPT 生成的數(shù)據(jù)只在種子計劃早期開發(fā)中用來注釋模型,并已于今年年中從字節(jié)跳動的訓(xùn)練數(shù)據(jù)中移除了。我們使用 GPT 來支持非中國市場的產(chǎn)品和功能,而在中國市場使用我們自研的模型來支持豆包?!?/p>

圖源:https://the-decoder.com/openai-bans-tiktok-company-bytedance-from-chatgpt-due-to-possible-data-theft/

同時,微軟發(fā)言人 Frank Shaw 也發(fā)表了一份聲明,「像 Azure OpenAI 服務(wù)這樣的 AI 解決方案是我們有限訪問框架的一部分,所有客戶必須申請并獲得微軟批準(zhǔn)后才能訪問。我們制定標(biāo)準(zhǔn)并提供資源,幫助客戶負責(zé)任地使用這些技術(shù),并遵守相關(guān)服務(wù)條款。我們還制定流程來檢測濫用行為,并在企業(yè)違反準(zhǔn)則時停止他們的訪問權(quán)限?!?/p>

12 月 17 日,字節(jié)跳動相關(guān)負責(zé)人回應(yīng)了機器之心的置評請求,稱公司在使用 OpenAI 相關(guān)服務(wù)時,強調(diào)要遵守其使用條款,其正與 OpenAI 聯(lián)系溝通,以澄清外部報道可能引發(fā)的誤解。

以下是字節(jié)跳動對使用 OpenAI 服務(wù)相關(guān)情況的介紹:

1、今年年初,當(dāng)技術(shù)團隊剛開始進行大模型的初期探索時,有部分工程師將 GPT 的 API 服務(wù)應(yīng)用于較小模型的實驗性項目研究中。該模型僅為測試,沒有計劃上線,也從未對外使用。在 4 月公司引入 GPT API 調(diào)用規(guī)范檢查后,這種做法已經(jīng)停止。

2、早在今年 4 月,字節(jié)大模型團隊已經(jīng)提出了明確的內(nèi)部要求,不得將 GPT 模型生成的數(shù)據(jù)添加到字節(jié)大模型的訓(xùn)練數(shù)據(jù)集,并培訓(xùn)工程師團隊在使用 GPT 時遵守服務(wù)條款。

3、9 月,公司內(nèi)部又進行了一輪檢查,采取措施進一步保證對 GPT 的 API 調(diào)用符合規(guī)范要求。例如分批次抽樣檢測模型訓(xùn)練數(shù)據(jù)與 GPT 的相似度,避免數(shù)據(jù)標(biāo)注人員私自使用 GPT。

4、未來幾天里,我們會再次全面檢查,以確保嚴(yán)格遵守相關(guān)服務(wù)的使用條款。

自 ChatGPT 出現(xiàn)以來,各大科技公司都在加緊研發(fā)能夠與之匹配的競品,不過由于面向 C 端和海外市場,面臨更多技術(shù)和法規(guī)等方面挑戰(zhàn),字節(jié)對于大模型的宣傳相對低調(diào)。在今年 6 月,火山引擎發(fā)布了大模型平臺火山方舟,8 月份,字節(jié)自研大模型「云雀」通過備案,開啟了 AI 對話產(chǎn)品「豆包」的對外測試。

在技術(shù)和落地應(yīng)用等方面,今年的生成式 AI 可謂有了飛躍式的進步,但在安全和隱私保護等問題上,目前人們?nèi)匀淮嬖谝恍┮蓱]。

參考內(nèi)容:

https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm

https://www.businessinsider.com/bytedance-openai-tech-artificial-intelligence-tiktok-sam-altman-2023-12

本站提醒:投資有風(fēng)險,入市須謹(jǐn)慎,本內(nèi)容不作為投資理財建議。