3月16日晚,埃隆·馬斯克在社交平臺上發(fā)文稱贊Kimi這項工作“令人印象深刻”,將中國人工智能公司“月之暗面”Kimi團隊的一項新技術(shù)成果帶入公眾視野。同日發(fā)布的Kimi技術(shù)論文中,排在作者名單第一位的“Guangyu Chen”因其“17歲高中生”的身份引起了廣泛關(guān)注。這位作者是來自深圳的陳廣宇,目前仍是一名在讀高中生。陳廣宇在接受采訪時表示,希望外界更多關(guān)注團隊共同攻關(guān)的大模型底層技術(shù)。
公開論文附錄顯示,Guangyu Chen、Yu Zhang和Jianlin Su三位作者均被標(biāo)注為“同等貢獻”。張宇是Kimi高效模型架構(gòu)的重要研究者,而蘇劍林提出的旋轉(zhuǎn)位置編碼(RoPE)已成為主流大模型廣泛采用的位置編碼方法之一。
這項成果之所以受到關(guān)注,不僅因為作者名單中出現(xiàn)了一名高中生,更因為它觸及了大模型一項長期沿用的底層機制。當(dāng)前主流大模型大多建立在Transformer架構(gòu)上。然而,模型層與層之間的信息傳遞長期以來一直沿用較為固定的老辦法,即“殘差連接”。這種方法簡單有效,但在層數(shù)增加后,前面的一些重要信息可能在反復(fù)疊加中被稀釋。Kimi團隊此次提出的“注意力殘差”(Attention Residuals)試圖改進這一問題,不再讓每一層無差別接收前面所有層的信息,而是根據(jù)當(dāng)前需要,有選擇地調(diào)取更值得參考的內(nèi)容。
根據(jù)論文和項目公開信息,這一方法已在Kimi Linear 48B模型上完成驗證,在相近效果下訓(xùn)練計算量可減少約20%,相當(dāng)于約1.25倍效率優(yōu)勢,推理延遲增加不到2%,可以直接替換標(biāo)準殘差連接。這項研究表明,主流大模型長期沿用的層間信息傳遞方式并非沒有優(yōu)化余地。
陳廣宇真正深入接觸人工智能研究是在近一年內(nèi)。起步階段,他通過研讀論文和追蹤GitHub開源項目等方式補上了基礎(chǔ)認知。去年暑假期間,他曾赴舊金山實習(xí)7周,回國后于11月到Kimi團隊實習(xí)。論文發(fā)布后,他在朋友圈發(fā)文回顧,提到同等貢獻作者及從事模型擴展與基礎(chǔ)設(shè)施工作的同事,稱這項成果離不開每個人的投入。
AI產(chǎn)業(yè)的迅速發(fā)展催生了巨大的算力需求,但全球算力資源利用率低的問題日益突出
2025-11-22 16:30:34Flex