春節(jié)期間,DeepSeek新一代開源模型以低成本和高性能引發(fā)熱議,在全球投資界引起廣泛關(guān)注。市場上甚至有說法稱DeepSeek僅用500萬美元就復(fù)制了OpenAI,認(rèn)為這將給整個AI基礎(chǔ)設(shè)施產(chǎn)業(yè)帶來重大影響。
對此,華爾街知名投行伯恩斯坦在詳細(xì)研究DeepSeek的技術(shù)文檔后發(fā)布報告稱,這種市場恐慌情緒明顯過度?!?00萬美元復(fù)制OpenAI”的說法是市場誤讀。實際上,這500萬美元僅僅是基于每GPU小時2美元的租賃價格估算的V3模型訓(xùn)練成本,并未包括前期研發(fā)投入、數(shù)據(jù)成本以及其他相關(guān)費用。
伯恩斯坦認(rèn)為,雖然DeepSeek的效率提升顯著,但從技術(shù)角度看并非奇跡。即便DeepSeek確實實現(xiàn)了10倍的效率提升,這也僅相當(dāng)于當(dāng)前AI模型每年的成本增長幅度。目前AI計算需求遠(yuǎn)未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收,因此對AI板塊保持樂觀。
關(guān)于DeepSeek發(fā)布的兩大模型V3和R1,伯恩斯坦進(jìn)行了詳細(xì)分析。V3模型采用專家混合架構(gòu),用2048塊NVIDIA H800 GPU、約270萬GPU小時達(dá)到了可與主流大模型媲美的性能。V3模型結(jié)合了多頭潛在注意力技術(shù)和FP8混合精度訓(xùn)練,使得其在訓(xùn)練時僅需同等規(guī)模開源模型約9%的算力,便能達(dá)到甚至超越其性能。例如,V3預(yù)訓(xùn)練僅需約270萬GPU小時,而同樣規(guī)模的開源LLaMA模型則需要約3000萬GPU小時。
MoE架構(gòu)每次只激活部分參數(shù),減少計算量;MHLA技術(shù)降低內(nèi)存占用,提升效率;FP8混合精度訓(xùn)練在保證性能的同時,進(jìn)一步提升計算效率。伯恩斯坦認(rèn)為,與業(yè)界3-7倍的常見效率提升相比,V3模型的效率提升并非顛覆性突破。
DeepSeek的R1模型通過強(qiáng)化學(xué)習(xí)等創(chuàng)新技術(shù),顯著提升了推理能力,使其能夠與OpenAI的o1模型相媲美。此外,DeepSeek還采用了“模型蒸餾”策略,利用R1模型作為“教師”,生成數(shù)據(jù)來微調(diào)更小的模型,這些小模型在性能上可以與OpenAI的o1-mini等競爭模型相媲美。這種策略不僅降低了成本,也為AI技術(shù)的普及提供了新的思路。
伯恩斯坦認(rèn)為,即便DeepSeek確實實現(xiàn)了10倍的效率提升,這也僅相當(dāng)于當(dāng)前AI模型每年的成本增長幅度。在“模型規(guī)模定律”不斷推動成本上升的背景下,像MoE、模型蒸餾、混合精度計算等創(chuàng)新對AI發(fā)展至關(guān)重要。根據(jù)杰文斯悖論,效率提升通常會帶來更大的需求,而非削減開支。該行認(rèn)為,目前AI計算需求遠(yuǎn)未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收。基于以上分析,伯恩斯坦對AI板塊保持樂觀。
好消息往往來自別人家公司。去年年初,一家名為Jane Street的量化交易機(jī)構(gòu)給實習(xí)生開出了1.6萬美元(約合人民幣11萬元)的月薪。那時,這家公司在華爾街還未聲名鵲起
2024-11-07 09:43:11實習(xí)生月薪14w了過去一周,DeepSeek R1、字節(jié)跳動的豆包1.5 Pro以及月之暗面的Kimi k1.5模型相繼推出,引起了全球投資者的高度關(guān)注
2025-02-01 13:18:44DeepSeek沖擊華爾街