無論是價格還是訓(xùn)練成本,DeepSeek都追求細(xì)分和創(chuàng)新。例如,通過一種新的MLA架構(gòu)和數(shù)據(jù)蒸餾技術(shù),降低了顯存占用并減少了訓(xùn)練數(shù)據(jù)量。DeepSeek R1的強(qiáng)大推理能力得益于強(qiáng)化學(xué)習(xí)方法,無需任何監(jiān)督式微調(diào)。
DeepSeek的成功不僅在于技術(shù)創(chuàng)新,還在于其開源理念。DeepSeek R1的預(yù)訓(xùn)練成本僅為557.6萬美元,遠(yuǎn)低于GPT-4o的水平。此外,DeepSeek API服務(wù)定價也遠(yuǎn)低于OpenAI。這些變化讓市場開始質(zhì)疑,是否真的需要那么多算力來訓(xùn)練高性能的大模型。
DeepSeek的崛起打破了原有的平衡,對傳統(tǒng)AI巨頭構(gòu)成了挑戰(zhàn)。OpenAI迅速做出調(diào)整,發(fā)布了o3-mini等新模型,并降低了API調(diào)用價格。與此同時,DeepSeek也面臨一些爭議,包括被指控未經(jīng)授權(quán)竊取數(shù)據(jù)以及遭受網(wǎng)絡(luò)攻擊。不過,許多企業(yè)如華為云、騰訊云、阿里云等紛紛宣布支持DeepSeek大模型。
這場由DeepSeek掀起的新風(fēng)暴仍在繼續(xù),未來AI行業(yè)的走向充滿變數(shù)。
2月26日,在開源周第三天,DeepSeek宣布開放高效的FP8 GEMM庫DeepGEMM。這三天的發(fā)布內(nèi)容都與算法相關(guān),偏向技術(shù)層面
2025-02-26 21:35:35DeepSeek開源第三日行業(yè)影響幾何在DeepSeek極低成本的推動下,開源模型和閉源模型之間的差距顯著縮小,掀起了一輪國產(chǎn)AI芯片廠商競相適配的風(fēng)潮
2025-02-15 18:37:10DeepSeek訓(xùn)練仍基于英偉達(dá)CUDA生態(tài)