為了減少備受詬病的“幻覺”問題,GPT-5引入了更嚴(yán)格的事實(shí)核查與內(nèi)容過濾機(jī)制。具體來看,在聯(lián)網(wǎng)搜索時(shí),GPT-5的事實(shí)錯(cuò)誤概率比GPT-4o低約45%;獨(dú)立思考時(shí),出錯(cuò)概率比o3模型低約80%;在開放式事實(shí)性基準(zhǔn)測試中,產(chǎn)生“幻覺”的數(shù)量更是比o3模型少了約六分之五。
然而,用戶的實(shí)際使用體驗(yàn)并未完全印證官方的說法。Meta公司的一位工程師體驗(yàn)GPT-5后表示,GPT-5僅用一次調(diào)用就重構(gòu)了他的整個(gè)代碼庫,但這些代碼都無效,盡管寫得很漂亮。從第三方的基準(zhǔn)測試數(shù)據(jù)來看,GPT-5相較于競爭對(duì)手的旗艦?zāi)P?,領(lǐng)先優(yōu)勢微乎其微。根據(jù)Artificial Analysis的綜合排名,GPT-5目前雖然位列第一,但其綜合得分僅比自家的老模型o3高出兩分,比Grok 4僅高出一分。而在AGI終極測試Arc Prize競賽中,GPT-5被Grok 4大幅超越。
奧爾特曼認(rèn)為,AI的發(fā)展正面臨兩大物理限制:高質(zhì)量的公共訓(xùn)練數(shù)據(jù)正在被快速耗盡,算力成本的指數(shù)級(jí)增長也讓過去那種“大力出奇跡”的暴力美學(xué)難以為繼。
等了多年的 GPT-5 終于在一個(gè)凌晨發(fā)布了。直播中,OpenAI 的幾位核心人員顯得非常緊張,奧特曼在直播過程中連發(fā)十幾條推特介紹 GPT-5 的特點(diǎn)
2025-08-08 07:55:42GPT-5基準(zhǔn)圖錯(cuò)誤遭全網(wǎng)吐槽