智源研究院“百?！痹u(píng)測結(jié)果：字節(jié)跳動(dòng)多項(xiàng)第一

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-12-23 13:57:58 騰訊新聞

智源研究院百模評(píng)測結(jié)果。2024年12月19日，智源研究院舉辦了一場秋冬評(píng)測發(fā)布會(huì)，其中一場大模型辯論賽引人注目。參與辯論的大模型能夠引用經(jīng)典文獻(xiàn)，并根據(jù)對(duì)手的論點(diǎn)進(jìn)行反擊。盡管這些大模型的表現(xiàn)與真人辯手仍有差距，但這場辯論展示了大模型的能力。

同一天，智源研究院發(fā)布了國內(nèi)外100多個(gè)開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻及語音語言大模型的綜合及專項(xiàng)評(píng)測結(jié)果。相比5月份的評(píng)測，此次新增了數(shù)據(jù)處理、高級(jí)編程和工具調(diào)用能力的任務(wù)，還首次增加了面向真實(shí)金融量化交易場景的應(yīng)用能力評(píng)估，以及基于模型辯論的對(duì)比評(píng)估方式，以深入分析模型的邏輯推理、觀點(diǎn)理解和語言表達(dá)能力。

此次評(píng)測發(fā)現(xiàn)，2024年下半年大模型發(fā)展呈現(xiàn)三個(gè)特點(diǎn)：一是廠商更注重提升大模型的綜合能力和實(shí)用性；二是多模態(tài)模型迅速發(fā)展，新廠商和新模型不斷涌現(xiàn)，而語言模型的發(fā)展逐漸放緩；三是大模型開源生態(tài)中出現(xiàn)了新的貢獻(xiàn)者。

在文本、語音、圖片、視頻理解與生成方面，評(píng)測結(jié)果顯示，國內(nèi)頭部語言模型在復(fù)雜場景任務(wù)中的表現(xiàn)仍落后于國際一流模型。字節(jié)跳動(dòng)Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力主觀評(píng)測中名列前茅，而在客觀評(píng)測中，OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest位列前茅。

對(duì)于視覺語言多模態(tài)模型，雖然架構(gòu)趨同，但表現(xiàn)各異。一些較好的開源模型在圖文理解任務(wù)上縮小了與閉源模型的差距，但仍需提升長尾視覺知識(shí)和文字識(shí)別能力。OpenAI GPT-4o-2024-11-20和字節(jié)跳動(dòng)Doubao-Pro-Vision-32k-241028表現(xiàn)突出。

12 全文共 2 頁下一頁

關(guān)閉

智源研究院“百?！痹u(píng)測結(jié)果：字節(jié)跳動(dòng)多項(xiàng)第一

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

智源研究院“百?！痹u(píng)測結(jié)果：字節(jié)跳動(dòng)多項(xiàng)第一