电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

新聞

美學者解析DeepSeek技術(shù)原理 揭秘低成本高效模型背后的秘密

關鍵詞:
2025-01-28 09:06:21  新浪財經(jīng)

2025年蛇年春節(jié)前夕,DeepSeek徹底出圈。1月27日,DeepSeek應用登頂蘋果美國地區(qū)應用商店免費App下載排行榜,在美區(qū)下載榜上超越了ChatGPT。同日,蘋果中國區(qū)應用商店免費榜顯示,DeepSeek成為中國區(qū)第一。

浙江大學計算機博士、美國南加州大學訪問學者傅聰解析了DeepSeek成功背后的技術(shù)原理。業(yè)界對DeepSeek的喜愛主要集中在三個方面:技術(shù)層面,DeepSeek背后的DeepSeek-V3及新推出的DeepSeek-R1兩款模型分別實現(xiàn)了與OpenAI 4o和o1模型相當?shù)哪芰Γ怀杀痉矫?,這兩款模型的成本僅為OpenAI 4o和o1模型的十分之一左右;此外,DeepSeek還開源了這些模型,讓更多的AI團隊能夠基于先進且低成本的模型開發(fā)更多AI原生應用。

關于如何實現(xiàn)模型成本降低同時保證效果,傅聰表示,DeepSeek通過Multi-Head latent Attention(MLA)和DeepSeek MOE架構(gòu)節(jié)省了大量的顯存,從而高效利用底層算力,以更低的成本訓練出更出色的模型。具體而言,DeepSeek采用了一種不需要輔助損失函數(shù)的專家加載均衡技術(shù),確保每個token下少量專家網(wǎng)絡參數(shù)被激活時,不同專家網(wǎng)絡能以更均衡的頻率被激活。這種策略在DeepSeek V2版本中已經(jīng)驗證有效,并在6710億參數(shù)規(guī)模的DeepSeek V3中進一步驗證,接近頭部玩家目前最好的商用模型參數(shù)規(guī)模。

DeepSeek還設計了一種“對偶流水線”機制,通過極致的流水線調(diào)度,將GPU用于數(shù)學運算和通信相關的算力進行并行隱藏,使得GPU幾乎不間斷地進行運算,理論上可使GPU指令執(zhí)行流水線中的“氣泡”減少一半。此外,DeepSeek限制了每個token發(fā)送到GPU集群節(jié)點的數(shù)量,保持較低的通信開銷,并應用了FP8混合精度訓練架構(gòu),靈活使用不同精度的數(shù)字表示,加快計算速度并降低通信開銷。

除了成本優(yōu)化,DeepSeek還提升了模型效果。DeepSeek應用了多token預測技術(shù),使模型在訓練時同時預測序列后面更遠位置的token,增強了模型對未來感知能力。真正幫助DeepSeek追趕o1的是最新模型DeepSeek-R1,該模型幾乎單純使用強化學習技術(shù)進行“后訓練”,極大提升了推理能力。R1模型通過學習CoT(思維鏈)的方式逐步推理得出結(jié)果,而不是直接預測答案。這一方案驗證了強化學習及inference time scaling law的可行性,證明小模型也能通過CoT + RL大幅提升推理能力,具備應用場景落地潛力。R1的出現(xiàn)還將增加學界和產(chǎn)業(yè)界對合成數(shù)據(jù)的需求。

(責任編輯:張蕾)
關閉

觀察:2025年的Mini LED電視市場,怎么打? 三大競爭焦點浮現(xiàn)

觀察,2025年的MiniLED電視市場,怎么打2025-02-18 13:57:25

曝王大陸涉嫌逃兵役被捕

曝王大陸涉嫌逃兵役被捕,王大陸被捕2025-02-18 13:57:04

今日雨水節(jié)氣,老傳統(tǒng)“吃二樣,做二事,忌二事” 千年習俗的智慧

今日雨水節(jié)氣,老傳統(tǒng)吃二樣,做二事,忌二事2025-02-18 13:55:02

美為何提議從中國向烏派遣維和人員 美國的奇葩主意

美為何提議從中國向烏派遣維和人員2025-02-18 13:14:02

媒體批特朗普又一次“搶劫”臺灣 美國的真實意圖暴露

媒體批特朗普又一次搶劫臺灣2025-02-18 13:15:58

黑中介騙取巨額服務費被公訴 虛假承諾誘騙客戶

黑中介騙取巨額服務費被公訴2025-02-18 13:54:23

網(wǎng)曝河北邢臺一局長酒后砸店傷人 當?shù)丶o委介入調(diào)查

局長酒后砸店傷人紀委介入調(diào)查2025-02-18 13:40:15

哪吒2主創(chuàng)團隊已進入新創(chuàng)作周期 續(xù)寫神話新篇章

哪吒2主創(chuàng)團隊已進入新創(chuàng)作周期2025-02-18 13:47:55

未來三天南方陰雨濕冷感明顯 北方降水增多

未來三天南方陰雨濕冷感明顯2025-02-18 13:52:04

美客機翻覆現(xiàn)場視頻曝光 惡劣天氣或成事故主因

美客機翻覆現(xiàn)場視頻曝光2025-02-18 13:20:05

張睿發(fā)尋物啟事找眼鏡,張睿沒眼鏡上不了課

張睿發(fā)尋物啟事找眼鏡2025-02-18 13:54:41

觀察:2025年的Mini LED電視市場,怎么打? 三大競爭焦點浮現(xiàn)

觀察,2025年的MiniLED電視市場,怎么打2025-02-18 13:57:25

澤連斯基將到訪沙特 不參與美俄會談

澤連斯基將到訪沙特2025-02-18 13:34:14

馬斯克坐實AI游戲工作室計劃 讓游戲再次偉大

馬斯克坐實AI游戲工作室計劃2025-02-18 13:19:44

美國新版“空軍一號”再度延期交付 供應鏈問題拖累進度

美國新版空軍一號再度延期交付2025-02-18 13:51:02

武漢一培訓機構(gòu)請千名學生看哪吒2 放松身心緩解壓力

武漢一培訓機構(gòu)請千名學生看哪吒22025-02-18 13:50:19

美國翻臉后,歐洲從“夸夸其談的少年”走向獨立成熟要做三件事 應對三大危機

美國翻臉后,歐洲從夸夸其談的少年走向獨立成熟要做三件事2025-02-18 13:29:52

拉夫羅夫抵達沙特 單手揣兜下飛機 談判桌上的博弈

拉夫羅夫抵達沙特單手揣兜下飛機2025-02-18 13:13:44

伊朗:反對外國勢力干涉敘利亞 支持敘人民自決權(quán)

伊朗,反對外國勢力干涉敘利亞2025-02-18 13:33:51

曝王大陸涉嫌逃兵役被捕

曝王大陸涉嫌逃兵役被捕,王大陸被捕2025-02-18 13:57:04

美俄談判今日開始 澤連斯基:不承認 烏克蘭缺席引發(fā)爭議

美俄談判今日開始澤連斯基,不承認2025-02-18 13:20:24

光線傳媒再度巨震 高位人氣股走弱

光線傳媒再度巨震2025-02-18 13:45:40

大V:歐洲和烏克蘭遭受三次沉重打擊 西方暴露三大問題

大V,歐洲和烏克蘭遭受三次沉重打擊2025-02-18 13:13:27

特朗普批波音總統(tǒng)專機還沒造好 項目拖延引不滿

特朗普批波音總統(tǒng)專機還沒造好2025-02-18 13:31:20

以民眾持續(xù)抗議要求政府維持?;?呼吁釋放被扣押人員

以民眾持續(xù)抗議要求政府維持?;?/span>2025-02-18 13:44:58

哈薩克斯坦鈾出口重心東移 哈鈾售中俄后致歐美快斷供了

哈鈾售中俄后致歐美快斷供了2025-02-18 13:53:48

為了增加軍費,英國公共服務部門被曝準備削減11%的預算,歐洲派兵計劃陷入僵局

為了增加軍費,英國公共服務部門被曝準備削減11%的預算2025-02-18 13:50:26

三亞招募100名旅游體驗官 提升服務質(zhì)量與游客滿意度

三亞招募100名旅游體驗官2025-02-18 13:49:55

馬斯克查賬“美國社?!?,稱發(fā)現(xiàn)360歲老人?

馬斯克查賬“美國社?!?,稱發(fā)現(xiàn)360歲老人?2025-02-18 13:45:10

今日雨水節(jié)氣,老傳統(tǒng)“吃二樣,做二事,忌二事” 千年習俗的智慧

今日雨水節(jié)氣,老傳統(tǒng)吃二樣,做二事,忌二事2025-02-18 13:55:02

申公豹的結(jié)巴能矯正嗎 口吃并非無法改善

申公豹的結(jié)巴能矯正嗎2025-02-18 13:43:25

烏方將不承認美俄談判達成的協(xié)議 澤連斯基堅決立場

烏方將不承認美俄談判達成的協(xié)議2025-02-18 13:52:32

賴志光任廣東惠州公安局局長 新任副市長兼公安局長

賴志光任廣東惠州公安局局長2025-02-18 13:43:08

相關新聞