DeepSeek如何“震驚”硅谷性能成本震撼巨頭

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-27 10:28:18 新浪財(cái)經(jīng)

當(dāng)全球都在慶祝圣誕節(jié)時(shí)，中國(guó)的一個(gè)實(shí)驗(yàn)室發(fā)布了令人矚目的AI模型。這一事件引起了廣泛關(guān)注。長(zhǎng)期以來(lái)，美國(guó)在AI領(lǐng)域占據(jù)主導(dǎo)地位，但DeepSeek的最新模型改變了這一格局。短短半個(gè)月內(nèi)，這款來(lái)自中國(guó)的AI模型以其卓越的表現(xiàn)震撼了硅谷。

DeepSeek成立于2023年，去年年底發(fā)布了一個(gè)免費(fèi)開(kāi)源的大語(yǔ)言模型。根據(jù)其論文，DeepSeek-R1在多個(gè)數(shù)學(xué)和推理基準(zhǔn)測(cè)試中超越了行業(yè)領(lǐng)先的OpenAI等模型，在性能、成本、開(kāi)放性等方面也表現(xiàn)出色。在一系列第三方基準(zhǔn)測(cè)試中，DeepSeek的模型在復(fù)雜問(wèn)題解決、數(shù)學(xué)和編程等多個(gè)領(lǐng)域的準(zhǔn)確性上超越了Meta的Llama 3.1、OpenAI的GPT-4以及Anthropic的Claude Sonnet 3.5。

上周，DeepSeek又發(fā)布了推理模型R1，在AIME 2024數(shù)學(xué)基準(zhǔn)測(cè)試中取得了79.8%的成功率，超過(guò)了OpenAI的最新模型。在標(biāo)準(zhǔn)化編碼測(cè)試中，它展示了“專家級(jí)”的表現(xiàn)，在Codeforces上獲得了2,029的Elo評(píng)分，超過(guò)96.3%的人類競(jìng)爭(zhēng)對(duì)手。Scale AI使用“人類最后考試”來(lái)測(cè)試AI大模型，結(jié)果顯示DeepSeek的最新模型表現(xiàn)最出色或與最好的美國(guó)模型不相上下。

DeepSeek在美國(guó)AI行業(yè)引發(fā)了巨大反響，幾乎所有主流媒體和科技媒體都報(bào)道了這一消息。短短幾天內(nèi)，DeepSeek成為蘋(píng)果應(yīng)用商店排名第一的免費(fèi)應(yīng)用，超越了OpenAI的ChatGPT。

除了性能卓越，DeepSeek的成本也極為低廉。R1模型的查詢成本僅為每百萬(wàn)個(gè)token 0.14美元，而OpenAI的成本為7.50美元，使其成本降低了98%。DeepSeek僅用兩個(gè)月時(shí)間，耗費(fèi)不到600萬(wàn)美元就打造了大語(yǔ)言模型R1，使用的還是性能較弱的英偉達(dá)H800芯片。這種低成本和高效率讓硅谷巨頭們感到震驚。

DeepSeek團(tuán)隊(duì)主要由北大、清華等頂級(jí)高校的博士生組成，許多人曾在頂級(jí)學(xué)術(shù)期刊發(fā)表論文并獲獎(jiǎng)。這種招聘策略有助于營(yíng)造自由協(xié)作的文化，研究人員可以利用充足的計(jì)算資源進(jìn)行創(chuàng)新研究。

面對(duì)DeepSeek的崛起，一些硅谷巨頭表達(dá)了不同的看法。OpenAI創(chuàng)始人奧特曼認(rèn)為復(fù)制已知有效的方案相對(duì)容易，探索未知領(lǐng)域則充滿挑戰(zhàn)。Perplexity AI的CEO斯林尼瓦斯表示，DeepSeek在很大程度上復(fù)制了OpenAI的技術(shù)并開(kāi)源了它，但他也贊嘆了DeepSeek的快速步伐。Stability AI的創(chuàng)始人Mostaque暗示DeepSeek給資金更充裕的競(jìng)爭(zhēng)對(duì)手帶來(lái)了壓力。Meta AI首席科學(xué)家楊立昆強(qiáng)調(diào)，DeepSeek的成功證明了開(kāi)源模型正在超越閉源系統(tǒng)。

DeepSeek通過(guò)一系列工程技術(shù)優(yōu)化了模型架構(gòu)，包括定制化芯片間通信方案、減少字段大小以節(jié)省內(nèi)存，以及創(chuàng)新性地使用專家混合模型方法。這些技術(shù)使DeepSeek的模型更具成本效益，訓(xùn)練所需的計(jì)算資源遠(yuǎn)少于競(jìng)爭(zhēng)對(duì)手。DeepSeek R1是一個(gè)轉(zhuǎn)折點(diǎn)，因?yàn)樗饕ㄟ^(guò)機(jī)械強(qiáng)化學(xué)習(xí)進(jìn)行學(xué)習(xí)，而不是依賴大量監(jiān)督數(shù)據(jù)。

DeepSeek愿意將其創(chuàng)新成果開(kāi)源，得到了全球AI研究社區(qū)的高度贊賞。英偉達(dá)資深研究員樊錦贊揚(yáng)了DeepSeek的透明度，并指出其強(qiáng)化學(xué)習(xí)方法的重要性。科技企業(yè)家Arnaud Bertrand認(rèn)為，競(jìng)爭(zhēng)性開(kāi)源模型的出現(xiàn)可能對(duì)OpenAI的商業(yè)模式造成沖擊。

DeepSeek的崛起對(duì)英偉達(dá)來(lái)說(shuō)是一個(gè)利空因素。由于美國(guó)政府的AI芯片禁運(yùn)，中國(guó)無(wú)法采購(gòu)英偉達(dá)最高性能的AI芯片，而H800則是高算力A100芯片的閹割版。盡管如此，DeepSeek依然成功地訓(xùn)練出了強(qiáng)勁的大模型。未來(lái)，中國(guó)AI行業(yè)可能會(huì)面臨更多挑戰(zhàn)，尤其是在芯片和出口管制方面。

(責(zé)任編輯：張佳鑫 0764)

關(guān)閉

DeepSeek如何“震驚”硅谷 性能成本震撼巨頭

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek如何“震驚”硅谷性能成本震撼巨頭