美學者解析DeepSeek技術(shù)原理揭秘低成本高效模型背后的秘密

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2025-01-28 09:06:21 新浪財經(jīng)

2025年蛇年春節(jié)前夕，DeepSeek徹底出圈。1月27日，DeepSeek應用登頂蘋果美國地區(qū)應用商店免費App下載排行榜，在美區(qū)下載榜上超越了ChatGPT。同日，蘋果中國區(qū)應用商店免費榜顯示，DeepSeek成為中國區(qū)第一。

浙江大學計算機博士、美國南加州大學訪問學者傅聰解析了DeepSeek成功背后的技術(shù)原理。業(yè)界對DeepSeek的喜愛主要集中在三個方面：技術(shù)層面，DeepSeek背后的DeepSeek-V3及新推出的DeepSeek-R1兩款模型分別實現(xiàn)了與OpenAI 4o和o1模型相當?shù)哪芰Γ怀杀痉矫?，這兩款模型的成本僅為OpenAI 4o和o1模型的十分之一左右；此外，DeepSeek還開源了這些模型，讓更多的AI團隊能夠基于先進且低成本的模型開發(fā)更多AI原生應用。

關于如何實現(xiàn)模型成本降低同時保證效果，傅聰表示，DeepSeek通過Multi-Head latent Attention（MLA）和DeepSeek MOE架構(gòu)節(jié)省了大量的顯存，從而高效利用底層算力，以更低的成本訓練出更出色的模型。具體而言，DeepSeek采用了一種不需要輔助損失函數(shù)的專家加載均衡技術(shù)，確保每個token下少量專家網(wǎng)絡參數(shù)被激活時，不同專家網(wǎng)絡能以更均衡的頻率被激活。這種策略在DeepSeek V2版本中已經(jīng)驗證有效，并在6710億參數(shù)規(guī)模的DeepSeek V3中進一步驗證，接近頭部玩家目前最好的商用模型參數(shù)規(guī)模。

DeepSeek還設計了一種“對偶流水線”機制，通過極致的流水線調(diào)度，將GPU用于數(shù)學運算和通信相關的算力進行并行隱藏，使得GPU幾乎不間斷地進行運算，理論上可使GPU指令執(zhí)行流水線中的“氣泡”減少一半。此外，DeepSeek限制了每個token發(fā)送到GPU集群節(jié)點的數(shù)量，保持較低的通信開銷，并應用了FP8混合精度訓練架構(gòu)，靈活使用不同精度的數(shù)字表示，加快計算速度并降低通信開銷。

除了成本優(yōu)化，DeepSeek還提升了模型效果。DeepSeek應用了多token預測技術(shù)，使模型在訓練時同時預測序列后面更遠位置的token，增強了模型對未來感知能力。真正幫助DeepSeek追趕o1的是最新模型DeepSeek-R1，該模型幾乎單純使用強化學習技術(shù)進行“后訓練”，極大提升了推理能力。R1模型通過學習CoT（思維鏈）的方式逐步推理得出結(jié)果，而不是直接預測答案。這一方案驗證了強化學習及inference time scaling law的可行性，證明小模型也能通過CoT + RL大幅提升推理能力，具備應用場景落地潛力。R1的出現(xiàn)還將增加學界和產(chǎn)業(yè)界對合成數(shù)據(jù)的需求。

(責任編輯：張蕾)

關閉

美學者解析DeepSeek技術(shù)原理 揭秘低成本高效模型背后的秘密

相關新聞

今日熱點

頻道熱點

美學者解析DeepSeek技術(shù)原理揭秘低成本高效模型背后的秘密