智源研究院百模評測結(jié)果。2024年12月19日,智源研究院舉辦了一場秋冬評測發(fā)布會,其中一場大模型辯論賽引人注目。參與辯論的大模型能夠引用經(jīng)典文獻,并根據(jù)對手的論點進行反擊。盡管這些大模型的表現(xiàn)與真人辯手仍有差距,但這場辯論展示了大模型的能力。
同一天,智源研究院發(fā)布了國內(nèi)外100多個開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻及語音語言大模型的綜合及專項評測結(jié)果。相比5月份的評測,此次新增了數(shù)據(jù)處理、高級編程和工具調(diào)用能力的任務(wù),還首次增加了面向真實金融量化交易場景的應(yīng)用能力評估,以及基于模型辯論的對比評估方式,以深入分析模型的邏輯推理、觀點理解和語言表達能力。
此次評測發(fā)現(xiàn),2024年下半年大模型發(fā)展呈現(xiàn)三個特點:一是廠商更注重提升大模型的綜合能力和實用性;二是多模態(tài)模型迅速發(fā)展,新廠商和新模型不斷涌現(xiàn),而語言模型的發(fā)展逐漸放緩;三是大模型開源生態(tài)中出現(xiàn)了新的貢獻者。
在文本、語音、圖片、視頻理解與生成方面,評測結(jié)果顯示,國內(nèi)頭部語言模型在復(fù)雜場景任務(wù)中的表現(xiàn)仍落后于國際一流模型。字節(jié)跳動Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力主觀評測中名列前茅,而在客觀評測中,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest位列前茅。
對于視覺語言多模態(tài)模型,雖然架構(gòu)趨同,但表現(xiàn)各異。一些較好的開源模型在圖文理解任務(wù)上縮小了與閉源模型的差距,但仍需提升長尾視覺知識和文字識別能力。OpenAI GPT-4o-2024-11-20和字節(jié)跳動Doubao-Pro-Vision-32k-241028表現(xiàn)突出。
文生圖模型方面,參評的頭部模型已具備中文文字生成能力,但在處理復(fù)雜場景人物變形、常識性推理任務(wù)和中國文化相關(guān)任務(wù)時仍存在不足。騰訊Hunyuan Image在此領(lǐng)域領(lǐng)先。
文生視頻模型生成的視頻畫質(zhì)提升顯著,動態(tài)性和鏡頭語言更加豐富,但仍存在動作變形等問題??焓挚伸`1.5(高品質(zhì))等模型排名靠前。
語音語言模型得益于文本大模型的進步,性能大幅提升。阿里巴巴Qwen2-Audio位居第一,其他如香港中文大學(xué)&微軟WavLLM、清華大學(xué)&字節(jié)跳動Salmon也表現(xiàn)出色。
此外,智源聯(lián)合北京市海淀區(qū)教師進修學(xué)校編制了K12全學(xué)段多學(xué)科試卷,以考察大模型與人類學(xué)生的能力差異。模型在K12學(xué)科測驗中的得分有所提高,但在理科科目上仍偏弱。
FlagEval大模型“角斗場”支持多種任務(wù)的自定義在線或離線盲測,用戶對模型響應(yīng)時間和輸出內(nèi)容格式有更高要求。通過FlagEval Debate平臺,智源進一步評估了大模型的辯論能力,發(fā)現(xiàn)大多數(shù)模型缺乏整體邏輯闡述能力,且存在論據(jù)不嚴謹?shù)膯栴}。
在金融量化交易領(lǐng)域的應(yīng)用方面,評測顯示大模型已能生成有回撤收益的策略代碼,接近初級量化交易員水平。深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06和Google Gemini-1.5-pro-latest在這一領(lǐng)域表現(xiàn)優(yōu)異。
智源的大模型評測平臺FlagEval經(jīng)過多次迭代,覆蓋了全球800多個開閉源模型,包含20多種任務(wù)和90多個評測數(shù)據(jù)集。智源與多家高校和機構(gòu)合作共建了多個評測集,以確保評測的全面性和準(zhǔn)確性。
智源研究院副院長林詠華表示,衡量一個模型應(yīng)從多個角度出發(fā),建議用戶根據(jù)自身需求選擇合適的模型。排行榜上的微小分數(shù)差異不應(yīng)影響用戶的選擇。未來,F(xiàn)lagEval評測體系將繼續(xù)創(chuàng)新,為大模型技術(shù)生態(tài)提供有力支持。
今年上半年,奇瑞品牌在SUV市場占有率中拔得頭籌,瑞虎家族對此貢獻顯著
2024-08-08 22:51:37試駕評測奇瑞瑞虎8L榮耀Magic7系列搭載了強大的YOYO智能體,通過一句話即可完成許多操作,如點奶茶、查詢自動續(xù)費等。AI的強大不僅體現(xiàn)在這些便捷功能上,還表現(xiàn)在影像處理能力上
2024-11-11 19:46:13榮耀Magic7