然而,中國AI大模型DeepSeek展示了不同的發(fā)展路徑。DeepSeek由量化金融公司量化幻方的子公司深度求索開發(fā),于2024年12月推出DeepSeek-V3,并于近期公布DeepSeek-R1。DeepSeek-V3的完整訓(xùn)練僅需2.788M H800 GPU小時(shí),成本為557萬美元,性能媲美OpenAI的GPT-4o。著名人工智能科學(xué)家卡帕西指出,這種級別的能力通常需要16000個(gè)GPU的集群,而DeepSeek-V3僅使用了2048個(gè)GPU運(yùn)行兩個(gè)月,花費(fèi)600萬美元。
DeepSeek-R1的訓(xùn)練成本尚未公布,但API定價(jià)顯示其每輸出一百萬Token的價(jià)格為2.19美元,僅為GPT-o1的三十分之一。R1在數(shù)學(xué)、編程等測試中的成績與o1相當(dāng)。這引發(fā)了一種質(zhì)疑:實(shí)現(xiàn)高性能AI大模型是否必須依賴大量算力和投資?通過軟件架構(gòu)及算法革新可能也是提高性能的有效途徑。
韋豪創(chuàng)芯合伙人王智表示,短期內(nèi)這起事件會利空AI算力,但從長期來看,AI算力仍然必不可少。AI大模型的發(fā)展需要更多新的架構(gòu)和算法支持,盡管具體形式尚不清楚,但必然會有所突破。
本周,中國互聯(lián)網(wǎng)上洋溢著喜悅的氣氛。2017年,谷歌旗下“深層思維”公司戰(zhàn)勝中國頂尖圍棋選手,展示了西方在人工智能領(lǐng)域的輝煌
2025-02-02 12:54:10一文看懂DeepSeek的中國式創(chuàng)新