GPT-5基準(zhǔn)圖錯(cuò)誤遭全網(wǎng)吐槽直播小bug引發(fā)熱議

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-08-08 07:55:42 機(jī)器之心Pro

GPT-5基準(zhǔn)圖錯(cuò)誤遭全網(wǎng)吐槽直播小bug引發(fā)熱議！等了多年的 GPT-5 終于在一個(gè)凌晨發(fā)布了。直播中，OpenAI 的幾位核心人員顯得非常緊張，奧特曼在直播過(guò)程中連發(fā)十幾條推特介紹 GPT-5 的特點(diǎn)。

GPT-5 是一個(gè)集成模型，用戶不需要在不同模型之間切換，它會(huì)自己決定何時(shí)需要深入思考。盡管奧特曼強(qiáng)調(diào)基準(zhǔn)測(cè)試不重要，但他們還是公布了一些跑分結(jié)果：數(shù)學(xué)領(lǐng)域 AIME 測(cè)試達(dá)到 94.6%；實(shí)際編程應(yīng)用 SWE-bench Verified 達(dá)到 74.9%，Aider Polyglot 達(dá)到 88%；多模態(tài)理解 MMMU 達(dá)到 84.2%；健康領(lǐng)域 HealthBench Hard 達(dá)到 46.2%。通過(guò) GPT-5 Pro 的擴(kuò)展推理能力，該模型還在 GPQA 測(cè)試中創(chuàng)造了新的 SOTA，得分 88.4%。

費(fèi)用方面，GPT-5 分為免費(fèi)版、Plus 和 Pro 計(jì)劃。免費(fèi)版也能使用帶推理功能的 GPT-5 普通版，Plus 用戶在使用頻率上限制更少，而 Pro 用戶可以使用 GPT-5 Pro。面向開發(fā)者，標(biāo)準(zhǔn)版 GPT-5 API 價(jià)格為每百萬(wàn)輸入 Token 1.25 美元，每百萬(wàn)輸出 Token 10 美元，GPT-5 mini 版和 Nano 版則更便宜。

直播中，OpenAI 展示了 GPT-5 在教育、寫作、編程、語(yǔ)音等多個(gè)方面的應(yīng)用。例如，在教育方面，它可以生成數(shù)百行代碼并解釋復(fù)雜概念；在寫作方面，GPT-5 的文筆比 GPT-4 更好；在編程方面，它可以在幾分鐘內(nèi)創(chuàng)建一個(gè)法語(yǔ)學(xué)習(xí)網(wǎng)頁(yè)；語(yǔ)音模式也得到了升級(jí)，更適合學(xué)外語(yǔ)。此外，GPT-5 還優(yōu)化了“AI 看病”功能，并請(qǐng)了一位癌癥患者分享她的經(jīng)歷。

不過(guò)，現(xiàn)場(chǎng)也出現(xiàn)了一些小問(wèn)題，比如跑分圖出錯(cuò)，馬斯克也轉(zhuǎn)發(fā)了 GPT-5 在 ARC-AGI-2 上沒(méi)有打敗 Grok 4 的消息。有人指出，GPT-5 在減少幻覺方面的演示也有問(wèn)題。GPT-5 的表現(xiàn)并未完全達(dá)到預(yù)期。

12 全文共 2 頁(yè)下一頁(yè)

關(guān)閉

GPT-5基準(zhǔn)圖錯(cuò)誤遭全網(wǎng)吐槽 直播小bug引發(fā)熱議

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

GPT-5基準(zhǔn)圖錯(cuò)誤遭全網(wǎng)吐槽直播小bug引發(fā)熱議