如果要在成功率和價格之間取得最佳平衡,可以參考左上角方框圈選出的幾個不錯模型,其中有4個是中國模型。
那么,這份榜單靠譜嗎?背后的篩選機制又是什么?
簡單來說,PinchBench并不是某家大廠推出的標(biāo)準(zhǔn)Benchmark,而是來自一支做Agent基礎(chǔ)設(shè)施的創(chuàng)業(yè)團隊Kilo AI。這支團隊由GitLab前聯(lián)合創(chuàng)始人兼CEO Sid Sijbrandij投資并參與創(chuàng)立,曾推出爆火“氛圍編程”工具Kilo Code。年初龍蝦爆火后,他們順勢推出了基于OpenClaw構(gòu)建的全托管智能體平臺KiloClaw,同時發(fā)布了PinchBench這一智能體框架評測工具。
PinchBench主要用來測試不同大模型在真實工作流中的執(zhí)行能力,包含23個真實任務(wù)的測試,如查詢并整理資料、寫郵件或生成報告、調(diào)用API完成操作等。評分機制采用自動化檢查加LLM評審的方式,最終統(tǒng)計的核心指標(biāo)是任務(wù)完成率、完成速度和推理成本。
由于評測方式偏向真實任務(wù)流程,在PinchBench的排行榜上,更大的模型并不總是制勝之道。那些偏Agent優(yōu)化或推理效率更高的模型反而排名靠前。這一點也是PinchBench最近被頻繁討論的原因之一。此外,PinchBench完全開源,用戶也可以在平臺上自行運行或添加新任務(wù)。如果以后不知道怎么選模型,不妨自己動手一試。
近日,騰訊的SkillHub正式上線。有消息稱,騰訊正在從Clawhub抓取技能并導(dǎo)入新平臺
2026-03-12 17:39:14騰訊回應(yīng)被龍蝦之父指責(zé)抄襲近日,全球人工智能領(lǐng)域接連迎來重要進(jìn)展
2026-01-31 16:42:15國產(chǎn)開源世界模型來了評測機構(gòu)ClawBench發(fā)布了最新大型模型榜單。北京的人工智能企業(yè)智譜、字節(jié)和小米共有四款模型躋身全球前十
2026-03-31 15:32:10小米字節(jié)等四款模型躋身全球前十