短短一個月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1。這兩款模型成本低廉,性能與OpenAI相當,引發(fā)了硅谷的震驚,甚至導致Meta內(nèi)部出現(xiàn)恐慌情緒,工程師們開始連夜嘗試復制DeepSeek的成果。
Scale AI創(chuàng)始人Alexander Wang在接受采訪時表示,DeepSeek在他們的測試中表現(xiàn)最佳,與中國科技界的快速發(fā)展有關。他認為,當美國休息時,中國科技界在以更低的成本、更快的速度和更強的實力追趕上來。
中國AI的進展引起了國外媒體的廣泛關注,被視為對硅谷敲響了警鐘。尤其在5000億美元的“星際之門”計劃公布之際,DeepSeek以極低的價格建立了一個突破性的AI模型,且未使用尖端芯片,這引發(fā)了人們對巨額資本投入有效性的質(zhì)疑。
一名匿名的Meta員工透露,DeepSeek-V3在基準測試中超越了Llama 4,讓Meta進入恐慌模式。工程師們正在爭分奪秒地分析DeepSeek的技術,試圖復制其成果。管理層也為GenAI研發(fā)部門的巨額投入感到擔憂,因為一個高管的薪資就超過了訓練整個DeepSeek V3的成本。
去年12月27日,DeepSeek推出了開源模型DeepSeek-V3,在聊天機器人競技場排名第七,在開源模型中排名第一,并且是全球前十中性價比最高的模型。不到一個月后,DeepSeek正式開源了R1推理模型,允許所有人在遵循MIT License的情況下蒸餾R1訓練其他模型。1月24日,DeepSeek-R1在聊天機器人競技場綜合榜單上排名第三,與頂尖推理模型o1并列。在高難度提示詞、代碼和數(shù)學等技術性極強的領域,DeepSeek-R1表現(xiàn)出色,位列第一。
著名投資公司A16z的創(chuàng)始人馬克·安德森稱,Deepseek-R1是他見過最令人印象深刻的突破之一,而且還是開源的,是一份給世界的禮物。諾獎得主、“AI教父”杰弗里·辛頓表示,中國的STEM教育比美國更好,擁有更多受過良好教育的人才,為AI的發(fā)展提供了堅實基礎。
阿里云通義千問超大規(guī)模的MoE模型Qwen2.5-Max于1月29日凌晨正式上線。該模型是阿里云通義團隊對MoE模型的最新成果,預訓練數(shù)據(jù)超過20萬億tokens
2025-01-30 13:16:20阿里新模型聲稱超越DeepSeek近日,一則關于AI的新聞在全球范圍內(nèi)引起了廣泛關注。斯坦福大學和華盛頓大學的研究人員發(fā)表了一篇論文,展示了他們以不到50美元(約364元)的云計算費用訓練出的一款名為S1的推理模型
2025-02-08 09:05:58364元就能開發(fā)DeepSeek模型