這一判斷并非空穴來風(fēng)。過去一段時間,不少企業(yè)率先感受到的是:單純“更會聊天”的模型,其業(yè)務(wù)邊際效益在不斷遞減。反而是會“下手干活”的Agent,比如自動生成月報、批量處理客服工單、自動跑流程、替程序員修小bug,才是真正能閉環(huán)并被愿意付費(fèi)的東西。
DeepSeek正是圍繞這一趨勢重構(gòu)了訓(xùn)練路徑——在V3.2的后訓(xùn)練階段,它搭了一整套針對Agent的訓(xùn)練體系,而不是簡單在模型外再縫一個“Agent框架”。據(jù)披露,團(tuán)隊自建了超過1800個模擬環(huán)境,并圍繞這些環(huán)境自動生成了大約8.5萬條復(fù)雜任務(wù)提示和任務(wù)軌跡。這些軌跡不是靠人工一條條寫出來,而是借助環(huán)境構(gòu)建器和軌跡打分系統(tǒng)自動合成,再通過強(qiáng)化學(xué)習(xí)不斷迭代。
這種做法,實際上是在繞開“繼續(xù)砸海量對話數(shù)據(jù)”的老路。與傳統(tǒng)的聊天語料相比,Agent任務(wù)具備更強(qiáng)的結(jié)構(gòu)化、可驗證性以及高度稀缺性——一旦建立起足夠豐富的任務(wù)環(huán)境,同一環(huán)境在后續(xù)訓(xùn)練中可以被反復(fù)利用,帶來的“能力增量”要遠(yuǎn)高于再加一批閑聊對話。
為了讓模型真正學(xué)會在這些環(huán)境里“行動”,DeepSeek繼續(xù)沿用了GRPO(Group Relative Policy Optimization)這一強(qiáng)化學(xué)習(xí)策略,并按自家場景做了大量本地化改造。模型訓(xùn)練優(yōu)化的目標(biāo),不再只是“回答對不對”,而是同時要兼顧:任務(wù)有沒有完成、推理過程是否連貫、語言表達(dá)是否穩(wěn)定、工具使用是否合理自然。為此,DeepSeek沒有采用單一維度的獎勵,而是把任務(wù)完成度、推理合理性、語言質(zhì)量等拆成多維信號,讓模型在訓(xùn)練中盡量避免“顧此失彼”。
做這一切,還有一個前提:模型要有足夠強(qiáng)的“狀態(tài)感知能力”,能在多輪任務(wù)中記住自己已經(jīng)做過什么、當(dāng)前在第幾步。這就回到了前面提到的上下文管理——V3.2在系統(tǒng)級別規(guī)定:只有當(dāng)用戶發(fā)出新指令時,模型才會重置思考狀態(tài);在同一個任務(wù)內(nèi)部,不論調(diào)用多少次工具,推理軌跡都被完整保留下來。這種設(shè)計直接保證了Agent行為鏈條的連續(xù)性,使得模型有能力承接更長、更復(fù)雜的跨階段任務(wù)。
11月27日晚,DeepSeek在Hugging Face上開源了一個新模型:DeepSeek-Math-V2。這是一個數(shù)學(xué)模型,也是目前首個達(dá)到IMO金牌水平且開源的模型
2025-11-28 10:26:50DeepSeek推出新模型10月20日,人工智能團(tuán)隊DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開源新模型DeepSeek-OCR