過去的一周,DeepSeek帶動的人工智能大模型“開源潮”熱度空前。2月24日,國內(nèi)AI企業(yè)深度求索(DeepSeek)啟動“開源周”,計劃在一周內(nèi)每天開源一個代碼庫,以完全透明的方式與全球開發(fā)者分享他們的研究進展。3月1日,DeepSeek發(fā)布《DeepSeek-V3/R1推理系統(tǒng)概覽》技術(shù)文章,首次公布模型推理系統(tǒng)優(yōu)化細節(jié),“開源周”就此收官。
五天時間里,DeepSeek開源了五個核心代碼庫,基本覆蓋了AI大模型開發(fā)的關(guān)鍵環(huán)節(jié),如硬件性能高效利用、數(shù)據(jù)處理提速等,有助于降低技術(shù)門檻和成本。DeepSeek方面表示,希望分享的每一行代碼都能加速行業(yè)發(fā)展進程。開源不僅指開放源代碼,還應(yīng)包括開放資源。中國工程院院士王堅認為,在人工智能時代,開源是對社會和全世界的貢獻。
以2月24日DeepSeek向公眾開源的FlashMLA代碼庫為例,它針對Hopper GPU架構(gòu)開發(fā),解決了大模型處理不同長度文本的問題。田豐解釋說,F(xiàn)lashMLA像可伸縮的快遞箱子,通過精準(zhǔn)分配GPU資源處理可變長度文本序列,實現(xiàn)高效解碼。除了FlashMLA,DeepSeek“開源周”還開放了DeepEP、DeepGEMM等關(guān)鍵技術(shù)。田豐認為,開源意味著企業(yè)免費提供研發(fā)成果給全球開發(fā)者,開發(fā)者在不同環(huán)境試用或迭代過程中會完善模型,推動技術(shù)快速迭代更新。
DeepSeek自成立以來一直堅持開源策略。今年年初,開源模型DeepSeek-R1推出后引發(fā)“接入潮”。如今,DeepSeek通過“開源周”進一步擴大開源程度,將有力助推AI大模型在模型、算力、應(yīng)用三個層面實現(xiàn)普惠“破圈”。在模型方面,DeepSeek打破了少數(shù)國際巨頭對頂尖大模型的技術(shù)壟斷;在算力方面,通過軟件優(yōu)化彌補硬件差距,讓全球開發(fā)者可以用個人級算力進行科研創(chuàng)新;在應(yīng)用方面,預(yù)計近期可能涌現(xiàn)出上百個行業(yè)應(yīng)用大模型,覆蓋農(nóng)業(yè)、工業(yè)、服務(wù)業(yè)等領(lǐng)域。
春節(jié)期間,中國的大模型技術(shù)迎來了一波密集更新
2025-01-29 19:34:36春節(jié)檔AI唱主角國產(chǎn)大模型密集更新