阿里巴巴通義實驗室向全球開源了Tongyi DeepResearch模型。這是全球首個在性能上能與行業(yè)標(biāo)桿OpenAI DeepResearch相媲美,并且完全開源的Web Agent。在多個權(quán)威基準(zhǔn)測試中,Tongyi DeepResearch不僅表現(xiàn)出色,還在不少單項上名列前茅,刷新了整個AI行業(yè)的技術(shù)標(biāo)準(zhǔn)。
過去六個月里,通義團(tuán)隊每月發(fā)布一篇技術(shù)報告。隨著Tongyi DeepResearch的正式亮相,他們又發(fā)布了六篇新的技術(shù)報告,內(nèi)容涵蓋數(shù)據(jù)合成、長期推理等多個方面,幾乎涵蓋了智能體技術(shù)的所有關(guān)鍵領(lǐng)域。
Tongyi DeepResearch采用了先進(jìn)的MoE架構(gòu),在性能與同等規(guī)模的傳統(tǒng)稠密模型相當(dāng)?shù)耐瑫r,推理效率提升了近10倍。這意味著高性能AI智能體的部署和使用門檻大大降低。
該模型擁有高達(dá)128K的超長上下文窗口,可以一次性處理和記憶大量信息,適用于需要進(jìn)行長周期、多輪次深度挖掘的研究任務(wù)。實際應(yīng)用中,它能夠同時“閱讀”并理解數(shù)十篇學(xué)術(shù)論文或瀏覽數(shù)百個網(wǎng)頁,還能發(fā)現(xiàn)不同文檔之間的內(nèi)在聯(lián)系,進(jìn)行綜合歸納。
通義團(tuán)隊為這個“大腦”設(shè)計了兩種不同的推理范式:ReAct模式和IterResearch模式。ReAct模式遵循“思考-行動-觀察”的閉環(huán),模型先對問題進(jìn)行推理,再決定下一步行動,最后觀察結(jié)果,進(jìn)入下一輪循環(huán)。這種模式受到AI領(lǐng)域“慘痛教訓(xùn)”的影響,強調(diào)利用海量計算能力的通用方法。
IterResearch模式則針對極端復(fù)雜的深度研究任務(wù)。它將任務(wù)分解成一系列結(jié)構(gòu)清晰的“研究回合”,每個回合只攜帶上一回合的核心結(jié)論,構(gòu)建精簡的工作空間。這種方法使Agent在執(zhí)行長期任務(wù)時保持清晰的認(rèn)知焦點和高質(zhì)量的推理能力。
此外,通義團(tuán)隊提出了Research-Synthesis框架,讓多個并行的IterResearch Agent同時研究同一復(fù)雜問題,最終整合各自的報告和結(jié)論,得出全面準(zhǔn)確的答案。
Tongyi DeepResearch的成功還在于其背后的訓(xùn)練方法論。通義團(tuán)隊重新發(fā)明了從預(yù)訓(xùn)練、微調(diào)到強化學(xué)習(xí)的整個流程,構(gòu)建了一個完整的端到端訓(xùn)練閉環(huán)。核心系統(tǒng)是AgentFounder,實現(xiàn)全自動高質(zhì)量合成數(shù)據(jù)生成,降低了傳統(tǒng)人工標(biāo)注數(shù)據(jù)的成本和生產(chǎn)效率低下的問題。
在預(yù)訓(xùn)練階段,團(tuán)隊引入了Agentic CPT,為后續(xù)訓(xùn)練打下基礎(chǔ)。數(shù)據(jù)合成分為兩步:數(shù)據(jù)重組和問題構(gòu)建,以及動作合成。通過這些步驟,模型能夠在真實世界中遇到的各種場景中表現(xiàn)得更好。
后訓(xùn)練階段,團(tuán)隊采用更精密的端到端合成數(shù)據(jù)生成方案,確保數(shù)據(jù)質(zhì)量和可擴展性。為了應(yīng)對復(fù)雜的真實世界問題,團(tuán)隊設(shè)計了一種新穎的流程來合成基于Web的問答數(shù)據(jù),增加了問題難度。
為了提高模型的實踐能力,團(tuán)隊采用了GRPO算法進(jìn)行強化學(xué)習(xí),并優(yōu)化了策略梯度損失函數(shù),確保學(xué)習(xí)信號與模型當(dāng)前能力匹配。團(tuán)隊還創(chuàng)建了高仿真的訓(xùn)練環(huán)境和統(tǒng)一的工具沙盒,確保智能體在訓(xùn)練和評估期間穩(wěn)定調(diào)用各種工具。
Tongyi DeepResearch在多個評測集上取得了優(yōu)異成績。例如,在Humanity's Last Exam評測集中,它比OpenAI o3高出8分。在BrowseComp系列和xbench-DeepSearch評測中,也展現(xiàn)了強大的信息檢索和綜合分析能力。
該模型已在高德地圖和法律領(lǐng)域成功落地。在高德地圖App中,它結(jié)合實時交通、天氣等信息,提供智能導(dǎo)航服務(wù)。在法律領(lǐng)域,通義法睿能夠自動檢索相關(guān)法條和案例,進(jìn)行深度歸納和分析,在國際頂尖模型同臺競技中表現(xiàn)最優(yōu)。
除了這些應(yīng)用,Tongyi DeepResearch在學(xué)術(shù)研究、市場分析、政策研究、金融分析等領(lǐng)域也有廣闊的應(yīng)用前景。它采用了Apache-2.0許可證,降低了企業(yè)和個人開發(fā)者二次開發(fā)的法律門檻和商業(yè)風(fēng)險。開放的技術(shù)生態(tài)有助于形成統(tǒng)一的技術(shù)標(biāo)準(zhǔn)和最佳實踐,推動技術(shù)進(jìn)步。
昆侖萬維股價上漲超過10%,創(chuàng)意信息、彩訊股份、焦點科技、南興股份、酷特智能等公司股票也跟隨上漲。這一市場變化與昆侖萬維宣布面向全球推出天工超級智能體的消息有關(guān)
2025-05-23 14:39:15AI智能體概念股