此外,通義團(tuán)隊提出了Research-Synthesis框架,讓多個并行的IterResearch Agent同時研究同一復(fù)雜問題,最終整合各自的報告和結(jié)論,得出全面準(zhǔn)確的答案。
Tongyi DeepResearch的成功還在于其背后的訓(xùn)練方法論。通義團(tuán)隊重新發(fā)明了從預(yù)訓(xùn)練、微調(diào)到強化學(xué)習(xí)的整個流程,構(gòu)建了一個完整的端到端訓(xùn)練閉環(huán)。核心系統(tǒng)是AgentFounder,實現(xiàn)全自動高質(zhì)量合成數(shù)據(jù)生成,降低了傳統(tǒng)人工標(biāo)注數(shù)據(jù)的成本和生產(chǎn)效率低下的問題。
在預(yù)訓(xùn)練階段,團(tuán)隊引入了Agentic CPT,為后續(xù)訓(xùn)練打下基礎(chǔ)。數(shù)據(jù)合成分為兩步:數(shù)據(jù)重組和問題構(gòu)建,以及動作合成。通過這些步驟,模型能夠在真實世界中遇到的各種場景中表現(xiàn)得更好。
后訓(xùn)練階段,團(tuán)隊采用更精密的端到端合成數(shù)據(jù)生成方案,確保數(shù)據(jù)質(zhì)量和可擴展性。為了應(yīng)對復(fù)雜的真實世界問題,團(tuán)隊設(shè)計了一種新穎的流程來合成基于Web的問答數(shù)據(jù),增加了問題難度。
為了提高模型的實踐能力,團(tuán)隊采用了GRPO算法進(jìn)行強化學(xué)習(xí),并優(yōu)化了策略梯度損失函數(shù),確保學(xué)習(xí)信號與模型當(dāng)前能力匹配。團(tuán)隊還創(chuàng)建了高仿真的訓(xùn)練環(huán)境和統(tǒng)一的工具沙盒,確保智能體在訓(xùn)練和評估期間穩(wěn)定調(diào)用各種工具。
Tongyi DeepResearch在多個評測集上取得了優(yōu)異成績。例如,在Humanity's Last Exam評測集中,它比OpenAI o3高出8分。在BrowseComp系列和xbench-DeepSearch評測中,也展現(xiàn)了強大的信息檢索和綜合分析能力。
該模型已在高德地圖和法律領(lǐng)域成功落地。在高德地圖App中,它結(jié)合實時交通、天氣等信息,提供智能導(dǎo)航服務(wù)。在法律領(lǐng)域,通義法睿能夠自動檢索相關(guān)法條和案例,進(jìn)行深度歸納和分析,在國際頂尖模型同臺競技中表現(xiàn)最優(yōu)。
除了這些應(yīng)用,Tongyi DeepResearch在學(xué)術(shù)研究、市場分析、政策研究、金融分析等領(lǐng)域也有廣闊的應(yīng)用前景。它采用了Apache-2.0許可證,降低了企業(yè)和個人開發(fā)者二次開發(fā)的法律門檻和商業(yè)風(fēng)險。開放的技術(shù)生態(tài)有助于形成統(tǒng)一的技術(shù)標(biāo)準(zhǔn)和最佳實踐,推動技術(shù)進(jìn)步。
昆侖萬維股價上漲超過10%,創(chuàng)意信息、彩訊股份、焦點科技、南興股份、酷特智能等公司股票也跟隨上漲。這一市場變化與昆侖萬維宣布面向全球推出天工超級智能體的消息有關(guān)
2025-05-23 14:39:15AI智能體概念股