2025年蛇年春節(jié)前夕,DeepSeek徹底出圈。1月27日,DeepSeek應用登頂蘋果美國地區(qū)應用商店免費App下載排行榜,在美區(qū)下載榜上超越了ChatGPT。同日,蘋果中國區(qū)應用商店免費榜顯示,DeepSeek成為中國區(qū)第一。
浙江大學計算機博士、美國南加州大學訪問學者傅聰解析了DeepSeek成功背后的技術(shù)原理。業(yè)界對DeepSeek的喜愛主要集中在三個方面:技術(shù)層面,DeepSeek背后的DeepSeek-V3及新推出的DeepSeek-R1兩款模型分別實現(xiàn)了與OpenAI 4o和o1模型相當?shù)哪芰Γ怀杀痉矫?,這兩款模型的成本僅為OpenAI 4o和o1模型的十分之一左右;此外,DeepSeek還開源了這些模型,讓更多的AI團隊能夠基于先進且低成本的模型開發(fā)更多AI原生應用。
關于如何實現(xiàn)模型成本降低同時保證效果,傅聰表示,DeepSeek通過Multi-Head latent Attention(MLA)和DeepSeek MOE架構(gòu)節(jié)省了大量的顯存,從而高效利用底層算力,以更低的成本訓練出更出色的模型。具體而言,DeepSeek采用了一種不需要輔助損失函數(shù)的專家加載均衡技術(shù),確保每個token下少量專家網(wǎng)絡參數(shù)被激活時,不同專家網(wǎng)絡能以更均衡的頻率被激活。這種策略在DeepSeek V2版本中已經(jīng)驗證有效,并在6710億參數(shù)規(guī)模的DeepSeek V3中進一步驗證,接近頭部玩家目前最好的商用模型參數(shù)規(guī)模。
DeepSeek還設計了一種“對偶流水線”機制,通過極致的流水線調(diào)度,將GPU用于數(shù)學運算和通信相關的算力進行并行隱藏,使得GPU幾乎不間斷地進行運算,理論上可使GPU指令執(zhí)行流水線中的“氣泡”減少一半。此外,DeepSeek限制了每個token發(fā)送到GPU集群節(jié)點的數(shù)量,保持較低的通信開銷,并應用了FP8混合精度訓練架構(gòu),靈活使用不同精度的數(shù)字表示,加快計算速度并降低通信開銷。
除了成本優(yōu)化,DeepSeek還提升了模型效果。DeepSeek應用了多token預測技術(shù),使模型在訓練時同時預測序列后面更遠位置的token,增強了模型對未來感知能力。真正幫助DeepSeek追趕o1的是最新模型DeepSeek-R1,該模型幾乎單純使用強化學習技術(shù)進行“后訓練”,極大提升了推理能力。R1模型通過學習CoT(思維鏈)的方式逐步推理得出結(jié)果,而不是直接預測答案。這一方案驗證了強化學習及inference time scaling law的可行性,證明小模型也能通過CoT + RL大幅提升推理能力,具備應用場景落地潛力。R1的出現(xiàn)還將增加學界和產(chǎn)業(yè)界對合成數(shù)據(jù)的需求。
中國是本月聯(lián)合國安理會的輪值主席。2月3日中午,在紐約聯(lián)合國總部,中國常駐聯(lián)合國代表傅聰舉行記者會,介紹了本月安理會議程安排并回答了記者提問
2025-02-04 17:41:30中國代表回應DeepSeek引發(fā)轟動