螞蟻集團(tuán)Ling團(tuán)隊(duì)近日發(fā)表了一篇技術(shù)成果論文,展示了兩款不同規(guī)模的MoE大語言模型——百靈輕量版(Ling-Lite)和百靈增強(qiáng)版(Ling-Plus)。百靈輕量版參數(shù)規(guī)模為168億,激活參數(shù)27.5億;百靈增強(qiáng)版基座模型參數(shù)規(guī)模高達(dá)2900億,激活參數(shù)288億。這兩款模型性能均達(dá)到行業(yè)領(lǐng)先水平。
除了自主研發(fā)高性能的大模型外,該論文還提出了一系列創(chuàng)新方法,以提升資源受限環(huán)境下AI開發(fā)的效率與可及性。實(shí)驗(yàn)表明,3000億參數(shù)的MoE大模型可在使用國產(chǎn)GPU的低性能設(shè)備上完成高效訓(xùn)練,其性能與完全使用英偉達(dá)芯片、同規(guī)模的稠密模型及MoE模型相當(dāng)。
在DeepSeek極低成本的推動(dòng)下,開源模型和閉源模型之間的差距顯著縮小,掀起了一輪國產(chǎn)AI芯片廠商競相適配的風(fēng)潮
2025-02-15 18:37:10DeepSeek訓(xùn)練仍基于英偉達(dá)CUDA生態(tài)幻方量化旗下的人工智能公司深度求索(DeepSeek)于2025年1月20日發(fā)布了DeepSeek-R1,該模型性能對標(biāo)OpenAI的o1正式版,引發(fā)了全球關(guān)注
2025-02-07 12:10:50DeepSeek掀算力革命