17歲小孩哥破解AI底層難題高中生參與引發(fā)關(guān)注

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-03-19 14:04:34 深圳新聞網(wǎng)

3月16日晚，埃隆·馬斯克在社交平臺上發(fā)文稱贊Kimi這項工作“令人印象深刻”，將中國人工智能公司“月之暗面”Kimi團隊的一項新技術(shù)成果帶入公眾視野。同日發(fā)布的Kimi技術(shù)論文中，排在作者名單第一位的“Guangyu Chen”因其“17歲高中生”的身份引起了廣泛關(guān)注。這位作者是來自深圳的陳廣宇，目前仍是一名在讀高中生。陳廣宇在接受采訪時表示，希望外界更多關(guān)注團隊共同攻關(guān)的大模型底層技術(shù)。

公開論文附錄顯示，Guangyu Chen、Yu Zhang和Jianlin Su三位作者均被標(biāo)注為“同等貢獻”。張宇是Kimi高效模型架構(gòu)的重要研究者，而蘇劍林提出的旋轉(zhuǎn)位置編碼（RoPE）已成為主流大模型廣泛采用的位置編碼方法之一。

這項成果之所以受到關(guān)注，不僅因為作者名單中出現(xiàn)了一名高中生，更因為它觸及了大模型一項長期沿用的底層機制。當(dāng)前主流大模型大多建立在Transformer架構(gòu)上。然而，模型層與層之間的信息傳遞長期以來一直沿用較為固定的老辦法，即“殘差連接”。這種方法簡單有效，但在層數(shù)增加后，前面的一些重要信息可能在反復(fù)疊加中被稀釋。Kimi團隊此次提出的“注意力殘差”（Attention Residuals）試圖改進這一問題，不再讓每一層無差別接收前面所有層的信息，而是根據(jù)當(dāng)前需要，有選擇地調(diào)取更值得參考的內(nèi)容。

根據(jù)論文和項目公開信息，這一方法已在Kimi Linear 48B模型上完成驗證，在相近效果下訓(xùn)練計算量可減少約20%，相當(dāng)于約1.25倍效率優(yōu)勢，推理延遲增加不到2%，可以直接替換標(biāo)準殘差連接。這項研究表明，主流大模型長期沿用的層間信息傳遞方式并非沒有優(yōu)化余地。

陳廣宇真正深入接觸人工智能研究是在近一年內(nèi)。起步階段，他通過研讀論文和追蹤GitHub開源項目等方式補上了基礎(chǔ)認知。去年暑假期間，他曾赴舊金山實習(xí)7周，回國后于11月到Kimi團隊實習(xí)。論文發(fā)布后，他在朋友圈發(fā)文回顧，提到同等貢獻作者及從事模型擴展與基礎(chǔ)設(shè)施工作的同事，稱這項成果離不開每個人的投入。

(責(zé)任編輯：zhangxiaohua)

關(guān)閉

17歲小孩哥破解AI底層難題 高中生參與引發(fā)關(guān)注

相關(guān)新聞

今日熱點

頻道熱點

17歲小孩哥破解AI底層難題高中生參與引發(fā)關(guān)注