6月3日,面壁智能CEO李大海針對近期熱議的斯坦福大學(xué)AI團(tuán)隊(duì)涉嫌抄襲其公司項(xiàng)目的事件作出回應(yīng)。同日,公司聯(lián)合創(chuàng)始人劉知遠(yuǎn)也在文章中強(qiáng)調(diào),開源精神基于對協(xié)議的遵守、對其他貢獻(xiàn)者的尊重及對前輩成就的認(rèn)可,而斯坦福團(tuán)隊(duì)的行為顯然違背了這些基本原則。
風(fēng)波的源頭是一款名為Llama3-V的多模態(tài)大模型,由斯坦福大學(xué)本科生團(tuán)隊(duì)開發(fā)。該團(tuán)隊(duì)聲稱,這款模型僅需500美元的訓(xùn)練成本,性能超越了GPT-4V、Gemini Ultra、Claude Opus等,迅速登上了“HuggingFace Trending”Top5。不過,隨之而來的是大量指控,稱Llama3-V抄襲了面壁智能的MiniCPM-Llama3-V 2.5模型。
面壁智能作為一家成立于2022年、有著清華大學(xué)背景的人工智能企業(yè),專注于大模型研究,并在今年4月完成了數(shù)億元融資。其自主研發(fā)的百億參數(shù)預(yù)訓(xùn)練語言大模型CPM,MiniCPM為其端側(cè)版本,因其高性能被昵稱為“小鋼炮”。5月20日,面壁智能公開發(fā)布了MiniCPM-Llama3-V 2.5,此模型支持超過30種語言,實(shí)現(xiàn)了端側(cè)多模態(tài)性能的顯著提升。
關(guān)于抄襲的指控集中在Llama3-V模型的結(jié)構(gòu)、配置與MiniCPM-Llama3-V 2.5的高度相似上,幾乎只是做了格式調(diào)整和變量重命名,甚至包括未公開的分詞器等細(xì)節(jié)都一模一樣。Llama3-V團(tuán)隊(duì)雖然承認(rèn)使用了分詞器,但對于如何提前獲取到相關(guān)信息未作明確解釋。
隨著事件發(fā)酵,李大海和劉知遠(yuǎn)的回應(yīng)中提到了一個(gè)關(guān)鍵證據(jù):“清華簡”的識別能力。面壁智能發(fā)現(xiàn),Llama3-V與MiniCPM-Llama3-V 2.5在清華簡的識別上出現(xiàn)了相同的錯(cuò)誤,而這部分?jǐn)?shù)據(jù)并未公開。高斯擾動(dòng)測試進(jìn)一步證實(shí)了兩款模型的相似性。
Llama3-V團(tuán)隊(duì)最終在社交平臺就學(xué)術(shù)不誠實(shí)行為向面壁智能致歉,并撤回了相關(guān)模型。斯坦福人工智能實(shí)驗(yàn)室主任Christopher David Manning對此抄襲事件表示譴責(zé),并贊揚(yáng)了MiniCPM模型。
此次事件也引發(fā)了對大模型開源領(lǐng)域內(nèi)套殼、抄襲問題的廣泛討論。專家指出,開源雖鼓勵(lì)代碼共享,但必須遵守相應(yīng)的協(xié)議,套殼與抄襲的界限則依據(jù)具體協(xié)議內(nèi)容和行為判定。面壁智能高管比喻Llama3-V團(tuán)隊(duì)的行為相當(dāng)于直接改名發(fā)布其模型為己有。至于面壁智能的后續(xù)行動(dòng),目前尚無更多信息公布。
近期,斯坦福大學(xué)的人工智能研究團(tuán)隊(duì)推出了一款名為Llama3-V的多模態(tài)大型模型,宣稱其性能超越了GPT-4V等其他知名模型
2024-06-04 20:06:10斯坦福AI團(tuán)隊(duì)“套殼”清華系開源大模型被實(shí)錘