DeepSeek掀起算力新范式低成本訓練引領變革

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2025-01-27 19:43:28 金融界

上周，中國DeepSeek的AI工程師團隊推出的DeepSeek R1大模型在美國熱搜上引起轟動，并在蘋果中國和美國地區(qū)的應用商店免費APP下載排行榜上登頂，超越了ChatGPT。這標志著中國AI的一個重要時刻。DeepSeek團隊展示了他們能在沒有頂級英偉達高性能AI GPU的情況下，以較低成本和性能普通的AI加速器訓練出一流的開源AI大模型，這意味著未來的AI模型訓練和推理可能不再依賴于昂貴的算力。

DeepSeek R1的發(fā)布表明，AI訓練與推理的成本大幅降低。該模型在不到600萬美元的投資和2048塊H800芯片的支持下，達到了與OpenAI o1相當?shù)男阅?，而后者需要高達10億美元的訓練成本。DeepSeek R1每百萬個token的查詢成本僅為0.14美元，相比之下，OpenAI的成本為7.50美元。這一成就預示著低成本的新范式正在形成，AI ASIC的時代即將到來。

UC伯克利、港科大和HuggingFace等學術機構成功復現(xiàn)了DeepSeek模型，僅用強化學習而無需監(jiān)督微調(diào)，就能見證AI模型的“頓悟時刻”。這種低成本和高效的方法引發(fā)了全球AI領域的關注。圖靈獎得主Yann Lecun也表示，這是開源對閉源AI大模型的一次勝利。DeepSeek的應用一度因訪問量激增而短暫崩潰，但問題很快得到解決。

DeepSeek R1的成功展示了通過極致工程化和集中精度的技術趨勢，使得AI ASIC在AI訓練端更具競爭力。在推理端，隨著生成式AI軟件和AI代理的大規(guī)模普及，推理需求將顯著增加。DeepSeek開創(chuàng)的低成本范式使得AI ASIC在性能和成本上都優(yōu)于傳統(tǒng)的AI GPU。

DeepSeek R1的推出讓全球科技股投資者對英偉達高性能AI GPU的必要性產(chǎn)生了懷疑。許多科技巨頭開始考慮自研AI ASIC，以提高性價比。盡管英偉達計劃進軍AI ASIC領域，但目前尚未有具體布局，難以撼動博通和Marvell的主導地位。

DeepSeek通過高效的訓練方法和數(shù)據(jù)壓縮策略，大幅降低了訓練和推理成本。例如，多層注意力機制、FP8混合精度訓練、DualPipe并行通信等技術，使得DeepSeek在有限資源下達到甚至超過行業(yè)主流大模型的性能。這種方法挑戰(zhàn)了傳統(tǒng)的巨額投入模式，顯示出硬件和算法潛力的最大化利用。

DeepSeek大模型在多個性能指標上表現(xiàn)出色，尤其是在數(shù)學和編程方面。其在2024年AIME測試中取得了優(yōu)異成績，接近OpenAI o1的水平。此外，在評估實際軟件工程問題解決能力的SWE-Bench Verified測試中，DeepSeek的表現(xiàn)甚至優(yōu)于o1。

隨著AI訓練和推理成本的降低，AI ASIC有望逐漸占據(jù)市場份額。博通和Marvell等公司正與大型云計算客戶合作開發(fā)定制化的AI芯片，預計未來幾年內(nèi)將大規(guī)模部署。摩根士丹利預測，AI ASIC市場規(guī)模將在2027年達到300億美元，年復合增長率達到34%。盡管如此，AI ASIC和AI GPU將長期共存，各自在特定領域發(fā)揮優(yōu)勢。

(責任編輯：張佳鑫 0764)

關閉

DeepSeek掀起算力新范式 低成本訓練引領變革

相關新聞

今日熱點

頻道熱點

DeepSeek掀起算力新范式低成本訓練引領變革