GPT-5基準(zhǔn)圖錯(cuò)誤遭全網(wǎng)吐槽 直播小bug引發(fā)熱議!等了多年的 GPT-5 終于在一個(gè)凌晨發(fā)布了。直播中,OpenAI 的幾位核心人員顯得非常緊張,奧特曼在直播過(guò)程中連發(fā)十幾條推特介紹 GPT-5 的特點(diǎn)。
GPT-5 是一個(gè)集成模型,用戶不需要在不同模型之間切換,它會(huì)自己決定何時(shí)需要深入思考。盡管奧特曼強(qiáng)調(diào)基準(zhǔn)測(cè)試不重要,但他們還是公布了一些跑分結(jié)果:數(shù)學(xué)領(lǐng)域 AIME 測(cè)試達(dá)到 94.6%;實(shí)際編程應(yīng)用 SWE-bench Verified 達(dá)到 74.9%,Aider Polyglot 達(dá)到 88%;多模態(tài)理解 MMMU 達(dá)到 84.2%;健康領(lǐng)域 HealthBench Hard 達(dá)到 46.2%。通過(guò) GPT-5 Pro 的擴(kuò)展推理能力,該模型還在 GPQA 測(cè)試中創(chuàng)造了新的 SOTA,得分 88.4%。
費(fèi)用方面,GPT-5 分為免費(fèi)版、Plus 和 Pro 計(jì)劃。免費(fèi)版也能使用帶推理功能的 GPT-5 普通版,Plus 用戶在使用頻率上限制更少,而 Pro 用戶可以使用 GPT-5 Pro。面向開發(fā)者,標(biāo)準(zhǔn)版 GPT-5 API 價(jià)格為每百萬(wàn)輸入 Token 1.25 美元,每百萬(wàn)輸出 Token 10 美元,GPT-5 mini 版和 Nano 版則更便宜。
直播中,OpenAI 展示了 GPT-5 在教育、寫作、編程、語(yǔ)音等多個(gè)方面的應(yīng)用。例如,在教育方面,它可以生成數(shù)百行代碼并解釋復(fù)雜概念;在寫作方面,GPT-5 的文筆比 GPT-4 更好;在編程方面,它可以在幾分鐘內(nèi)創(chuàng)建一個(gè)法語(yǔ)學(xué)習(xí)網(wǎng)頁(yè);語(yǔ)音模式也得到了升級(jí),更適合學(xué)外語(yǔ)。此外,GPT-5 還優(yōu)化了“AI 看病”功能,并請(qǐng)了一位癌癥患者分享她的經(jīng)歷。
不過(guò),現(xiàn)場(chǎng)也出現(xiàn)了一些小問(wèn)題,比如跑分圖出錯(cuò),馬斯克也轉(zhuǎn)發(fā)了 GPT-5 在 ARC-AGI-2 上沒(méi)有打敗 Grok 4 的消息。有人指出,GPT-5 在減少幻覺方面的演示也有問(wèn)題。GPT-5 的表現(xiàn)并未完全達(dá)到預(yù)期。
山姆因好麗友派等新品被網(wǎng)友質(zhì)疑選品標(biāo)準(zhǔn),引發(fā)熱議。這場(chǎng)爭(zhēng)議源于山姆近期密集的商品調(diào)整
2025-07-17 10:30:43山姆遭會(huì)員集體吐槽