阿里巴巴發(fā)布開源AI智能體刷新行業(yè)技術(shù)標(biāo)桿(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-09-20 00:00:03 CSDN博客

此外，通義團(tuán)隊提出了Research-Synthesis框架，讓多個并行的IterResearch Agent同時研究同一復(fù)雜問題，最終整合各自的報告和結(jié)論，得出全面準(zhǔn)確的答案。

Tongyi DeepResearch的成功還在于其背后的訓(xùn)練方法論。通義團(tuán)隊重新發(fā)明了從預(yù)訓(xùn)練、微調(diào)到強化學(xué)習(xí)的整個流程，構(gòu)建了一個完整的端到端訓(xùn)練閉環(huán)。核心系統(tǒng)是AgentFounder，實現(xiàn)全自動高質(zhì)量合成數(shù)據(jù)生成，降低了傳統(tǒng)人工標(biāo)注數(shù)據(jù)的成本和生產(chǎn)效率低下的問題。

在預(yù)訓(xùn)練階段，團(tuán)隊引入了Agentic CPT，為后續(xù)訓(xùn)練打下基礎(chǔ)。數(shù)據(jù)合成分為兩步：數(shù)據(jù)重組和問題構(gòu)建，以及動作合成。通過這些步驟，模型能夠在真實世界中遇到的各種場景中表現(xiàn)得更好。

后訓(xùn)練階段，團(tuán)隊采用更精密的端到端合成數(shù)據(jù)生成方案，確保數(shù)據(jù)質(zhì)量和可擴展性。為了應(yīng)對復(fù)雜的真實世界問題，團(tuán)隊設(shè)計了一種新穎的流程來合成基于Web的問答數(shù)據(jù)，增加了問題難度。

為了提高模型的實踐能力，團(tuán)隊采用了GRPO算法進(jìn)行強化學(xué)習(xí)，并優(yōu)化了策略梯度損失函數(shù)，確保學(xué)習(xí)信號與模型當(dāng)前能力匹配。團(tuán)隊還創(chuàng)建了高仿真的訓(xùn)練環(huán)境和統(tǒng)一的工具沙盒，確保智能體在訓(xùn)練和評估期間穩(wěn)定調(diào)用各種工具。

Tongyi DeepResearch在多個評測集上取得了優(yōu)異成績。例如，在Humanity's Last Exam評測集中，它比OpenAI o3高出8分。在BrowseComp系列和xbench-DeepSearch評測中，也展現(xiàn)了強大的信息檢索和綜合分析能力。

該模型已在高德地圖和法律領(lǐng)域成功落地。在高德地圖App中，它結(jié)合實時交通、天氣等信息，提供智能導(dǎo)航服務(wù)。在法律領(lǐng)域，通義法睿能夠自動檢索相關(guān)法條和案例，進(jìn)行深度歸納和分析，在國際頂尖模型同臺競技中表現(xiàn)最優(yōu)。

除了這些應(yīng)用，Tongyi DeepResearch在學(xué)術(shù)研究、市場分析、政策研究、金融分析等領(lǐng)域也有廣闊的應(yīng)用前景。它采用了Apache-2.0許可證，降低了企業(yè)和個人開發(fā)者二次開發(fā)的法律門檻和商業(yè)風(fēng)險。開放的技術(shù)生態(tài)有助于形成統(tǒng)一的技術(shù)標(biāo)準(zhǔn)和最佳實踐，推動技術(shù)進(jìn)步。

首頁上一頁 12共 2 頁

(責(zé)任編輯：zx0001)

關(guān)閉

阿里巴巴發(fā)布開源AI智能體 刷新行業(yè)技術(shù)標(biāo)桿(2)

相關(guān)新聞

今日熱點

頻道熱點

阿里巴巴發(fā)布開源AI智能體刷新行業(yè)技術(shù)標(biāo)桿(2)