阿里巴巴發(fā)布開源AI智能體刷新行業(yè)技術(shù)標(biāo)桿

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-09-20 00:00:03 CSDN博客

阿里巴巴通義實驗室向全球開源了Tongyi DeepResearch模型。這是全球首個在性能上能與行業(yè)標(biāo)桿OpenAI DeepResearch相媲美，并且完全開源的Web Agent。在多個權(quán)威基準(zhǔn)測試中，Tongyi DeepResearch不僅表現(xiàn)出色，還在不少單項上名列前茅，刷新了整個AI行業(yè)的技術(shù)標(biāo)準(zhǔn)。

過去六個月里，通義團(tuán)隊每月發(fā)布一篇技術(shù)報告。隨著Tongyi DeepResearch的正式亮相，他們又發(fā)布了六篇新的技術(shù)報告，內(nèi)容涵蓋數(shù)據(jù)合成、長期推理等多個方面，幾乎涵蓋了智能體技術(shù)的所有關(guān)鍵領(lǐng)域。

Tongyi DeepResearch采用了先進(jìn)的MoE架構(gòu)，在性能與同等規(guī)模的傳統(tǒng)稠密模型相當(dāng)?shù)耐瑫r，推理效率提升了近10倍。這意味著高性能AI智能體的部署和使用門檻大大降低。

該模型擁有高達(dá)128K的超長上下文窗口，可以一次性處理和記憶大量信息，適用于需要進(jìn)行長周期、多輪次深度挖掘的研究任務(wù)。實際應(yīng)用中，它能夠同時“閱讀”并理解數(shù)十篇學(xué)術(shù)論文或瀏覽數(shù)百個網(wǎng)頁，還能發(fā)現(xiàn)不同文檔之間的內(nèi)在聯(lián)系，進(jìn)行綜合歸納。

通義團(tuán)隊為這個“大腦”設(shè)計了兩種不同的推理范式：ReAct模式和IterResearch模式。ReAct模式遵循“思考-行動-觀察”的閉環(huán)，模型先對問題進(jìn)行推理，再決定下一步行動，最后觀察結(jié)果，進(jìn)入下一輪循環(huán)。這種模式受到AI領(lǐng)域“慘痛教訓(xùn)”的影響，強調(diào)利用海量計算能力的通用方法。

IterResearch模式則針對極端復(fù)雜的深度研究任務(wù)。它將任務(wù)分解成一系列結(jié)構(gòu)清晰的“研究回合”，每個回合只攜帶上一回合的核心結(jié)論，構(gòu)建精簡的工作空間。這種方法使Agent在執(zhí)行長期任務(wù)時保持清晰的認(rèn)知焦點和高質(zhì)量的推理能力。

此外，通義團(tuán)隊提出了Research-Synthesis框架，讓多個并行的IterResearch Agent同時研究同一復(fù)雜問題，最終整合各自的報告和結(jié)論，得出全面準(zhǔn)確的答案。

Tongyi DeepResearch的成功還在于其背后的訓(xùn)練方法論。通義團(tuán)隊重新發(fā)明了從預(yù)訓(xùn)練、微調(diào)到強化學(xué)習(xí)的整個流程，構(gòu)建了一個完整的端到端訓(xùn)練閉環(huán)。核心系統(tǒng)是AgentFounder，實現(xiàn)全自動高質(zhì)量合成數(shù)據(jù)生成，降低了傳統(tǒng)人工標(biāo)注數(shù)據(jù)的成本和生產(chǎn)效率低下的問題。

在預(yù)訓(xùn)練階段，團(tuán)隊引入了Agentic CPT，為后續(xù)訓(xùn)練打下基礎(chǔ)。數(shù)據(jù)合成分為兩步：數(shù)據(jù)重組和問題構(gòu)建，以及動作合成。通過這些步驟，模型能夠在真實世界中遇到的各種場景中表現(xiàn)得更好。

后訓(xùn)練階段，團(tuán)隊采用更精密的端到端合成數(shù)據(jù)生成方案，確保數(shù)據(jù)質(zhì)量和可擴展性。為了應(yīng)對復(fù)雜的真實世界問題，團(tuán)隊設(shè)計了一種新穎的流程來合成基于Web的問答數(shù)據(jù)，增加了問題難度。

為了提高模型的實踐能力，團(tuán)隊采用了GRPO算法進(jìn)行強化學(xué)習(xí)，并優(yōu)化了策略梯度損失函數(shù)，確保學(xué)習(xí)信號與模型當(dāng)前能力匹配。團(tuán)隊還創(chuàng)建了高仿真的訓(xùn)練環(huán)境和統(tǒng)一的工具沙盒，確保智能體在訓(xùn)練和評估期間穩(wěn)定調(diào)用各種工具。

Tongyi DeepResearch在多個評測集上取得了優(yōu)異成績。例如，在Humanity's Last Exam評測集中，它比OpenAI o3高出8分。在BrowseComp系列和xbench-DeepSearch評測中，也展現(xiàn)了強大的信息檢索和綜合分析能力。

該模型已在高德地圖和法律領(lǐng)域成功落地。在高德地圖App中，它結(jié)合實時交通、天氣等信息，提供智能導(dǎo)航服務(wù)。在法律領(lǐng)域，通義法睿能夠自動檢索相關(guān)法條和案例，進(jìn)行深度歸納和分析，在國際頂尖模型同臺競技中表現(xiàn)最優(yōu)。

除了這些應(yīng)用，Tongyi DeepResearch在學(xué)術(shù)研究、市場分析、政策研究、金融分析等領(lǐng)域也有廣闊的應(yīng)用前景。它采用了Apache-2.0許可證，降低了企業(yè)和個人開發(fā)者二次開發(fā)的法律門檻和商業(yè)風(fēng)險。開放的技術(shù)生態(tài)有助于形成統(tǒng)一的技術(shù)標(biāo)準(zhǔn)和最佳實踐，推動技術(shù)進(jìn)步。

(責(zé)任編輯：zx0001)

關(guān)閉

阿里巴巴發(fā)布開源AI智能體 刷新行業(yè)技術(shù)標(biāo)桿

相關(guān)新聞

今日熱點

頻道熱點

阿里巴巴發(fā)布開源AI智能體刷新行業(yè)技術(shù)標(biāo)桿