短短一個(gè)月內(nèi),中國(guó)AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型——DeepSeek-V3和DeepSeek-R1。這兩款模型成本低廉,性能卻與OpenAI相當(dāng),讓硅谷震驚,甚至引發(fā)了Meta內(nèi)部的恐慌,工程師們開(kāi)始連夜嘗試復(fù)制DeepSeek的成果。
Scale AI創(chuàng)始人Alexander Wang在采訪中表示,DeepSeek在他們的測(cè)試中表現(xiàn)最好,與美國(guó)最好的模型相當(dāng)。他之前還提到,DeepSeek-V3是中國(guó)科技界帶給美國(guó)的一個(gè)教訓(xùn),強(qiáng)調(diào)中國(guó)以更低的成本、更快的速度和更強(qiáng)的實(shí)力追趕上來(lái)。
國(guó)外媒體也紛紛報(bào)道了中國(guó)大模型的新進(jìn)展,認(rèn)為這對(duì)硅谷敲響了警鐘。在5000億美元的“星際之門(mén)”計(jì)劃公布之際,DeepSeek以極低的價(jià)格建立了一個(gè)突破性的AI模型,且未使用尖端芯片,這讓人們質(zhì)疑巨額資本投入是否是最有效的方法。
一位匿名的Meta員工透露,DeepSeek-V3在基準(zhǔn)測(cè)試中已經(jīng)超越Llama 4,更令人尷尬的是,這家僅用550萬(wàn)美元訓(xùn)練預(yù)算的中國(guó)公司做到了這一點(diǎn)。Meta的工程師們正在爭(zhēng)分奪秒地分析DeepSeek,試圖復(fù)制其中的技術(shù)。管理層則為GenAI研發(fā)部門(mén)的巨額投入而發(fā)愁,尤其是當(dāng)一個(gè)高管的薪資就超過(guò)訓(xùn)練整個(gè)DeepSeek V3的成本時(shí)。
去年12月27日,DeepSeek推出開(kāi)源模型DeepSeek-V3,在聊天機(jī)器人競(jìng)技場(chǎng)中排名第七,在開(kāi)源模型中排第一,是全球前十中性?xún)r(jià)比最高的模型。今年1月20日,DeepSeek正式開(kāi)源R1推理模型,允許所有人在遵循MIT License的情況下蒸餾R1訓(xùn)練其他模型。1月24日,DeepSeek-R1在聊天機(jī)器人競(jìng)技場(chǎng)綜合榜單上排名第三,與頂尖推理模型o1并列。在高難度提示詞、代碼和數(shù)學(xué)等技術(shù)性領(lǐng)域,DeepSeek-R1位列第一。在風(fēng)格控制方面,DeepSeek-R1與o1并列第一,表明其在理解和遵循用戶(hù)指令方面表現(xiàn)出色。Artificial-Analysis的初步測(cè)試顯示,DeepSeek-R1在AI分析質(zhì)量指數(shù)中取得第二高分,價(jià)格僅為o1的約三十分之一。
短短一個(gè)月內(nèi),中國(guó)AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-27 08:21:32DeepSeek大模型強(qiáng)在哪