上周,中國DeepSeek的AI工程師團隊推出的DeepSeek R1大模型在美國熱搜上引起轟動,并在蘋果中國和美國地區(qū)的應用商店免費APP下載排行榜上登頂,超越了ChatGPT。這標志著中國AI的一個重要時刻。DeepSeek團隊展示了他們能在沒有頂級英偉達高性能AI GPU的情況下,以較低成本和性能普通的AI加速器訓練出一流的開源AI大模型,這意味著未來的AI模型訓練和推理可能不再依賴于昂貴的算力。
DeepSeek R1的發(fā)布表明,AI訓練與推理的成本大幅降低。該模型在不到600萬美元的投資和2048塊H800芯片的支持下,達到了與OpenAI o1相當?shù)男阅?,而后者需要高達10億美元的訓練成本。DeepSeek R1每百萬個token的查詢成本僅為0.14美元,相比之下,OpenAI的成本為7.50美元。這一成就預示著低成本的新范式正在形成,AI ASIC的時代即將到來。
UC伯克利、港科大和HuggingFace等學術機構成功復現(xiàn)了DeepSeek模型,僅用強化學習而無需監(jiān)督微調(diào),就能見證AI模型的“頓悟時刻”。這種低成本和高效的方法引發(fā)了全球AI領域的關注。圖靈獎得主Yann Lecun也表示,這是開源對閉源AI大模型的一次勝利。DeepSeek的應用一度因訪問量激增而短暫崩潰,但問題很快得到解決。
DeepSeek R1的成功展示了通過極致工程化和集中精度的技術趨勢,使得AI ASIC在AI訓練端更具競爭力。在推理端,隨著生成式AI軟件和AI代理的大規(guī)模普及,推理需求將顯著增加。DeepSeek開創(chuàng)的低成本范式使得AI ASIC在性能和成本上都優(yōu)于傳統(tǒng)的AI GPU。
DeepSeek R1的推出讓全球科技股投資者對英偉達高性能AI GPU的必要性產(chǎn)生了懷疑。許多科技巨頭開始考慮自研AI ASIC,以提高性價比。盡管英偉達計劃進軍AI ASIC領域,但目前尚未有具體布局,難以撼動博通和Marvell的主導地位。
DeepSeek通過高效的訓練方法和數(shù)據(jù)壓縮策略,大幅降低了訓練和推理成本。例如,多層注意力機制、FP8混合精度訓練、DualPipe并行通信等技術,使得DeepSeek在有限資源下達到甚至超過行業(yè)主流大模型的性能。這種方法挑戰(zhàn)了傳統(tǒng)的巨額投入模式,顯示出硬件和算法潛力的最大化利用。
DeepSeek大模型在多個性能指標上表現(xiàn)出色,尤其是在數(shù)學和編程方面。其在2024年AIME測試中取得了優(yōu)異成績,接近OpenAI o1的水平。此外,在評估實際軟件工程問題解決能力的SWE-Bench Verified測試中,DeepSeek的表現(xiàn)甚至優(yōu)于o1。
隨著AI訓練和推理成本的降低,AI ASIC有望逐漸占據(jù)市場份額。博通和Marvell等公司正與大型云計算客戶合作開發(fā)定制化的AI芯片,預計未來幾年內(nèi)將大規(guī)模部署。摩根士丹利預測,AI ASIC市場規(guī)模將在2027年達到300億美元,年復合增長率達到34%。盡管如此,AI ASIC和AI GPU將長期共存,各自在特定領域發(fā)揮優(yōu)勢。
幻方量化旗下的人工智能公司深度求索(DeepSeek)于2025年1月20日發(fā)布了DeepSeek-R1,該模型性能對標OpenAI的o1正式版,引發(fā)了全球關注
2025-02-07 12:10:50DeepSeek掀算力革命2月9日,蘇州數(shù)智科技集團宣布國內(nèi)領先的人工智能大模型DeepSeek正式登陸蘇州,并在蘇州市公共算力服務平臺上完成部署上線。此次上線為用戶提供開箱即用的軟硬件一體服務
2025-02-10 10:55:47DeepSeek正式登陸蘇州Deepseek對算力市場產(chǎn)生了顯著影響。假期期間,它給AI算力帶來了巨大沖擊,特別是在硬件廠商方面。美股和A股市場上與算力訓練相關的公司股價出現(xiàn)下跌
2025-02-11 08:24:36DeepSeek沒能讓算力焦慮消失