在龍年結(jié)束、蛇年開(kāi)始之際,東方上演了一場(chǎng)震撼科技界的事件。1月27日,美國(guó)的人工智能主題股票遭遇拋售,英偉達(dá)股價(jià)暴跌16.97%,市值一日內(nèi)蒸發(fā)近6000億美元,創(chuàng)下美國(guó)歷史上單日最大市值損失記錄。這一事件的幕后推手是中國(guó)一家初創(chuàng)公司DeepSeek開(kāi)發(fā)的大模型DeepSeek-V3。該模型發(fā)布后迅速登上美國(guó)蘋果App商店免費(fèi)下載排行榜榜首,引發(fā)科技圈和華爾街的關(guān)注。
1月28日凌晨,除夕夜前一晚,DeepSeek開(kāi)源了其多模態(tài)模型Janus-Pro-7B,并宣布在GenEval和DPG-Bench基準(zhǔn)測(cè)試中擊敗了OpenAI的DALL-E 3和Stable Diffusion。隨后,美國(guó)多名官員回應(yīng)稱DeepSeek是“偷竊”,并表示正在對(duì)其影響開(kāi)展國(guó)家安全調(diào)查。面對(duì)外部壓力,360集團(tuán)創(chuàng)始人周鴻祎在微博上表示,如果DeepSeek需要,360愿意提供網(wǎng)絡(luò)安全方面的全力支持。這場(chǎng)保衛(wèi)戰(zhàn)已經(jīng)打響,中國(guó)“科技黑馬”掀起的AI風(fēng)暴可能將重塑全球科技業(yè)態(tài)。
軟銀宣布準(zhǔn)備投資5000億美元于AI基礎(chǔ)設(shè)施建設(shè)時(shí),DeepSeek發(fā)布了完全開(kāi)源的R1模型。該模型在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上的性能與OpenAI最新的o1大模型相當(dāng),對(duì)全球科技界尤其是美國(guó)各大模型構(gòu)成了巨大沖擊。長(zhǎng)期以來(lái),算力被認(rèn)為是AI的核心,但DeepSeek團(tuán)隊(duì)專注于算法創(chuàng)新,減少了對(duì)計(jì)算資源的需求。R1通過(guò)動(dòng)態(tài)路由算法壓縮了80%的冗余計(jì)算,以較低成本實(shí)現(xiàn)了高性能。DeepSeek官方公布的API定價(jià)顯示,R1每百萬(wàn)輸入tokens為1元至4元人民幣,每百萬(wàn)輸出tokens為16元人民幣,而OpenAI的ChatGPT-o1運(yùn)行成本約為R1的30倍。
這家成立僅一年半的年輕公司以低成本做出了硅谷需要上億投入才能實(shí)現(xiàn)的大模型,R1迅速成為美國(guó)頂尖大學(xué)研究人員的首選。AMD宣布已將DeepSeek-V3集成到Instinct MI300X GPU上,優(yōu)化AI推理性能。一名Meta員工透露,由于DeepSeek的低成本高性能,他們公司的人工智能部門陷入恐慌。國(guó)內(nèi)大廠如阿里云也在春節(jié)期間加班發(fā)布了通義千問(wèn)旗艦版模型Qwen2.5-Max,聲稱在多項(xiàng)測(cè)試中全面超越GPT-4o、DeepSeek-V3和Llama-3.1。
盡管DeepSeek在全球范圍內(nèi)引起了轟動(dòng),但實(shí)際體驗(yàn)顯示它在某些方面仍需改進(jìn)。例如,在文生圖創(chuàng)作時(shí),Janus Pro的表現(xiàn)令人失望。江蘇省紅樓夢(mèng)學(xué)會(huì)會(huì)長(zhǎng)苗懷明教授認(rèn)為,DeepSeek可以寫一些較為套路化、程序化的東西,但在獨(dú)創(chuàng)性和深度文學(xué)作品創(chuàng)作方面尚有不足。此外,DeepSeek依然依賴于美國(guó)的算力生態(tài),訓(xùn)練過(guò)程中需要使用英偉達(dá)GPU。包括馬斯克在內(nèi)的多位業(yè)內(nèi)人士認(rèn)為,DeepSeek的訓(xùn)練方式仍然依賴堆積算力,而非真正的突破。
DeepSeek登頂中美應(yīng)用下載榜后,因遭受大規(guī)模惡意攻擊短暫關(guān)閉注冊(cè)通道。用戶暴增導(dǎo)致系統(tǒng)頻繁宕機(jī),每問(wèn)幾個(gè)問(wèn)題后就需要重新開(kāi)啟對(duì)話窗口。DeepSeek團(tuán)隊(duì)清醒地認(rèn)識(shí)到,雖然取得了突破,但仍需保持冷靜,看清差距。創(chuàng)始人的回復(fù)表明,他們正努力探索可持續(xù)發(fā)展的新路。