阿里巴巴于4月29日凌晨開源了新一代通義千問模型Qwen3,簡稱千問3。該模型參數(shù)量僅為DeepSeek-R1的三分之一,成本顯著降低,性能卻全面超越R1、OpenAI-o1等全球頂尖模型,成為目前最強的開源模型之一。千問3是國內(nèi)首個“混合推理模型”,能夠?qū)⒖焖俸蜕疃人伎技傻酵荒P椭校瑢唵涡枨罂梢匝杆俳o出答案,而面對復(fù)雜問題時則能進行多步驟深入分析,從而大大節(jié)省了算力消耗。
千問3采用了混合專家(MoE)架構(gòu),總參數(shù)量為235B,激活僅需22B。其預(yù)訓(xùn)練數(shù)據(jù)量達到36T,并在后訓(xùn)練階段經(jīng)過多輪強化學(xué)習(xí),實現(xiàn)了非思考模式與思考模式之間的無縫整合。千問3在多個方面表現(xiàn)出色,包括推理能力、指令遵循、工具調(diào)用以及多語言支持等,均達到了國產(chǎn)及全球開源模型的新高度。例如,在AIME25奧數(shù)水平測試中,千問3獲得了81.5分的成績,刷新了開源記錄;在LiveCodeBench代碼能力評測中,得分超過70分,甚至超過了Grok3的表現(xiàn);而在ArenaHard的人類偏好對齊評估中,以95.6分超越了OpenAI-o1及DeepSeek-R1。值得注意的是,盡管性能大幅提升,但千問3的部署成本卻大幅下降,只需4張H20即可完成滿血版部署,顯存占用僅為性能相近模型的三分之一。
開源社區(qū)Hugging Face最新榜單顯示,阿里萬相大模型在開源僅6天后已超過DeepSeek-R1,登頂模型熱榜和模型空間榜,成為近期全球開源社區(qū)最受歡迎的大模型
2025-03-03 10:47:59阿里萬相大模型登上全球開源榜首阿里通義千問開源負責(zé)人林俊旸在X上發(fā)文暗示,Qwen3模型有望于4月28日發(fā)布
2025-04-29 21:25:44阿里通義千問模型Qwen3有哪些亮點