智源研究院百模評(píng)測結(jié)果。2024年12月19日,智源研究院舉辦了一場秋冬評(píng)測發(fā)布會(huì),其中一場大模型辯論賽引人注目。參與辯論的大模型能夠引用經(jīng)典文獻(xiàn),并根據(jù)對(duì)手的論點(diǎn)進(jìn)行反擊。盡管這些大模型的表現(xiàn)與真人辯手仍有差距,但這場辯論展示了大模型的能力。
同一天,智源研究院發(fā)布了國內(nèi)外100多個(gè)開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻及語音語言大模型的綜合及專項(xiàng)評(píng)測結(jié)果。相比5月份的評(píng)測,此次新增了數(shù)據(jù)處理、高級(jí)編程和工具調(diào)用能力的任務(wù),還首次增加了面向真實(shí)金融量化交易場景的應(yīng)用能力評(píng)估,以及基于模型辯論的對(duì)比評(píng)估方式,以深入分析模型的邏輯推理、觀點(diǎn)理解和語言表達(dá)能力。
此次評(píng)測發(fā)現(xiàn),2024年下半年大模型發(fā)展呈現(xiàn)三個(gè)特點(diǎn):一是廠商更注重提升大模型的綜合能力和實(shí)用性;二是多模態(tài)模型迅速發(fā)展,新廠商和新模型不斷涌現(xiàn),而語言模型的發(fā)展逐漸放緩;三是大模型開源生態(tài)中出現(xiàn)了新的貢獻(xiàn)者。
在文本、語音、圖片、視頻理解與生成方面,評(píng)測結(jié)果顯示,國內(nèi)頭部語言模型在復(fù)雜場景任務(wù)中的表現(xiàn)仍落后于國際一流模型。字節(jié)跳動(dòng)Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力主觀評(píng)測中名列前茅,而在客觀評(píng)測中,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest位列前茅。
對(duì)于視覺語言多模態(tài)模型,雖然架構(gòu)趨同,但表現(xiàn)各異。一些較好的開源模型在圖文理解任務(wù)上縮小了與閉源模型的差距,但仍需提升長尾視覺知識(shí)和文字識(shí)別能力。OpenAI GPT-4o-2024-11-20和字節(jié)跳動(dòng)Doubao-Pro-Vision-32k-241028表現(xiàn)突出。
業(yè)內(nèi)評(píng)測東風(fēng)猛士917
2024-06-28 13:22:57業(yè)內(nèi)評(píng)測東風(fēng)猛士917今年上半年,奇瑞品牌在SUV市場占有率中拔得頭籌,瑞虎家族對(duì)此貢獻(xiàn)顯著
2024-08-08 22:51:37試駕評(píng)測奇瑞瑞虎8L