DeepSeek正成為AI領(lǐng)域崛起的新星,打破了國(guó)內(nèi)大模型的原有格局。本周,DeepSeek發(fā)布了DeepSeek-R1,并同步開(kāi)源了模型權(quán)重。DeepSeek-R1遵循MIT License,允許用戶通過(guò)蒸餾技術(shù)借助R1訓(xùn)練其他模型。
DeepSeek-R1上線了API,對(duì)用戶開(kāi)放思維鏈輸出,設(shè)置model='deepseek-reasoner'即可調(diào)用。該模型在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能與OpenAI o1正式版相當(dāng)。同時(shí),DeepSeek開(kāi)源了兩個(gè)660B模型,并通過(guò)DeepSeek-R1的輸出蒸餾出六個(gè)小模型,其中32B和70B模型在多項(xiàng)能力上實(shí)現(xiàn)了對(duì)標(biāo)OpenAI o1-mini的效果。
DeepSeek-R1 API服務(wù)定價(jià)為每百萬(wàn)輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬(wàn)輸出tokens 16元。DeepSeek在美國(guó)科技界引起震動(dòng),不僅因?yàn)槠湫阅芘cOpenAI的o1相當(dāng)且完全開(kāi)源,還以極低成本實(shí)現(xiàn)了這一突破。知名投資人馬克·安德森表示,DeepSeek R1是他見(jiàn)過(guò)最令人驚嘆和印象深刻的突破之一,作為開(kāi)源項(xiàng)目,這是給世界的一份重要禮物。
Scale AI創(chuàng)始人亞歷山大·王認(rèn)為,過(guò)去十年美國(guó)可能一直在人工智能競(jìng)賽中領(lǐng)先于中國(guó),但DeepSeek的發(fā)布可能會(huì)改變這一局面。DeepSeek-R1與GPT-4o和Claude 3.5 Sonnet相當(dāng),訓(xùn)練時(shí)計(jì)算量減少10倍。這表明在美國(guó)人休息時(shí),中國(guó)人在工作,并以更便宜、更快、更強(qiáng)的產(chǎn)品迎頭趕上。
DeepSeek的動(dòng)作讓Meta的生成式AI團(tuán)隊(duì)感到恐慌。Meta CEO扎克伯格宣布加速研發(fā)Llama 4,計(jì)劃投資650億美元擴(kuò)建數(shù)據(jù)中心,并部署130萬(wàn)枚GPU,以確保2025年Meta AI成為全球領(lǐng)先模型。
消息人士稱,索尼早在數(shù)年前便啟動(dòng)了下一代游戲主機(jī)PS6的芯片招標(biāo)程序,博通等公司被淘汰后,英特爾與AMD是最后兩位入圍決賽圈的選手。
2024-09-18 13:43:03AMD擊敗Intel獲PS6芯片合同