盡管論文中提到的600萬(wàn)美元僅指預(yù)訓(xùn)練階段的直接成本,但高級(jí)分析師認(rèn)為,DeepSeek在硬件方面的累計(jì)投資已遠(yuǎn)超5億美元。例如,多頭潛注意力機(jī)制的開(kāi)發(fā)耗時(shí)數(shù)月,消耗了大量資源。隨著算法優(yōu)化,訓(xùn)練和推理同等性能所需的計(jì)算資源不斷減少,這種趨勢(shì)在行業(yè)內(nèi)屢見(jiàn)不鮮。
R1在短時(shí)間內(nèi)實(shí)現(xiàn)了與o1相當(dāng)?shù)男阅芩?,得益于新的“推理”范式。這種方法通過(guò)合成數(shù)據(jù)生成和后訓(xùn)練強(qiáng)化學(xué)習(xí)來(lái)提升推理能力,以更低成本獲得快速進(jìn)展。谷歌的Gemini Flash 2.0 Thinking也在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,但在市場(chǎng)策略和用戶體驗(yàn)上有所欠缺。
DeepSeek的技術(shù)突破,如多Token預(yù)測(cè)(MTP)和混合專家模型(MoE),引起了西方實(shí)驗(yàn)室的關(guān)注。這些創(chuàng)新提高了訓(xùn)練效率并降低了推理成本。R1的成功還得益于強(qiáng)大的基礎(chǔ)模型V3和強(qiáng)化學(xué)習(xí)的應(yīng)用。
多頭潛注意力機(jī)制(MLA)顯著減少了每次查詢所需的KV緩存量,降低了運(yùn)營(yíng)成本。這項(xiàng)創(chuàng)新特別受到美國(guó)頂級(jí)實(shí)驗(yàn)室的關(guān)注。此外,由于H20芯片具有更高的內(nèi)存帶寬和容量,DeepSeek在推理工作負(fù)載方面獲得了更多效率提升。
R1雖然在性能上接近o1,但成本更低,這符合市場(chǎng)邏輯。率先突破新能力層次的公司將獲得價(jià)格溢價(jià),而追趕者只能獲得適度利潤(rùn)。當(dāng)前正處于技術(shù)快速迭代的周期,產(chǎn)品更新?lián)Q代速度前所未有。未來(lái),開(kāi)源模型市場(chǎng)將在下一代技術(shù)中迅速商品化,計(jì)算資源的集中度仍將是關(guān)鍵因素。
中國(guó)AI大模型市場(chǎng)規(guī)模正在快速發(fā)展。近日,量化巨頭幻方量化旗下公司DeepSeek發(fā)布了推理大模型DeepSeek-R1
2025-01-27 08:58:14震動(dòng)科技界