GPT-5基準(zhǔn)圖錯(cuò)誤遭全網(wǎng)吐槽 直播小bug引發(fā)熱議!等了多年的 GPT-5 終于在一個(gè)凌晨發(fā)布了。直播中,OpenAI 的幾位核心人員顯得非常緊張,奧特曼在直播過(guò)程中連發(fā)十幾條推特介紹 GPT-5 的特點(diǎn)。
GPT-5 是一個(gè)集成模型,用戶不需要在不同模型之間切換,它會(huì)自己決定何時(shí)需要深入思考。盡管奧特曼強(qiáng)調(diào)基準(zhǔn)測(cè)試不重要,但他們還是公布了一些跑分結(jié)果:數(shù)學(xué)領(lǐng)域 AIME 測(cè)試達(dá)到 94.6%;實(shí)際編程應(yīng)用 SWE-bench Verified 達(dá)到 74.9%,Aider Polyglot 達(dá)到 88%;多模態(tài)理解 MMMU 達(dá)到 84.2%;健康領(lǐng)域 HealthBench Hard 達(dá)到 46.2%。通過(guò) GPT-5 Pro 的擴(kuò)展推理能力,該模型還在 GPQA 測(cè)試中創(chuàng)造了新的 SOTA,得分 88.4%。
費(fèi)用方面,GPT-5 分為免費(fèi)版、Plus 和 Pro 計(jì)劃。免費(fèi)版也能使用帶推理功能的 GPT-5 普通版,Plus 用戶在使用頻率上限制更少,而 Pro 用戶可以使用 GPT-5 Pro。面向開(kāi)發(fā)者,標(biāo)準(zhǔn)版 GPT-5 API 價(jià)格為每百萬(wàn)輸入 Token 1.25 美元,每百萬(wàn)輸出 Token 10 美元,GPT-5 mini 版和 Nano 版則更便宜。
直播中,OpenAI 展示了 GPT-5 在教育、寫(xiě)作、編程、語(yǔ)音等多個(gè)方面的應(yīng)用。例如,在教育方面,它可以生成數(shù)百行代碼并解釋復(fù)雜概念;在寫(xiě)作方面,GPT-5 的文筆比 GPT-4 更好;在編程方面,它可以在幾分鐘內(nèi)創(chuàng)建一個(gè)法語(yǔ)學(xué)習(xí)網(wǎng)頁(yè);語(yǔ)音模式也得到了升級(jí),更適合學(xué)外語(yǔ)。此外,GPT-5 還優(yōu)化了“AI 看病”功能,并請(qǐng)了一位癌癥患者分享她的經(jīng)歷。
不過(guò),現(xiàn)場(chǎng)也出現(xiàn)了一些小問(wèn)題,比如跑分圖出錯(cuò),馬斯克也轉(zhuǎn)發(fā)了 GPT-5 在 ARC-AGI-2 上沒(méi)有打敗 Grok 4 的消息。有人指出,GPT-5 在減少幻覺(jué)方面的演示也有問(wèn)題。GPT-5 的表現(xiàn)并未完全達(dá)到預(yù)期。
GPT-5 包含三個(gè)模型:高效應(yīng)答模型、深度推理模型(GPT-5 Thinking 模式)和實(shí)時(shí)分配最優(yōu)處理模型的 router。該系統(tǒng)通過(guò)用戶反饋持續(xù)優(yōu)化。GPT-5 在基準(zhǔn)測(cè)試中優(yōu)于前代模型,響應(yīng)速度更快,尤其在降低幻覺(jué)生成、提升指令遵循精度和減少迎合性回答方面取得突破。它在文本創(chuàng)作、編程開(kāi)發(fā)和健康咨詢?nèi)髨?chǎng)景中表現(xiàn)全面提升。
評(píng)估結(jié)果顯示,GPT-5 在數(shù)學(xué)、編程、視覺(jué)理解和健康領(lǐng)域表現(xiàn)突出。在啟用推理功能時(shí),GPT-5 在約半數(shù)案例中的表現(xiàn)達(dá)到或超越人類專家水平,同時(shí)在法律、物流、銷(xiāo)售、工程等 40 多個(gè)職業(yè)領(lǐng)域的綜合任務(wù)表現(xiàn)上全面優(yōu)于 o3 模型和 ChatGPT Agent。
為了應(yīng)對(duì)最具挑戰(zhàn)性的任務(wù),OpenAI 發(fā)布了 GPT-5 Pro,取代 OpenAI o3-pro。GPT-5 Pro 能夠長(zhǎng)時(shí)間思考,提供最高質(zhì)量和最全面的答案,在多項(xiàng)極具挑戰(zhàn)性的智能基準(zhǔn)測(cè)試中取得了 GPT-5 系列中的最高性能。
山姆因好麗友派等新品被網(wǎng)友質(zhì)疑選品標(biāo)準(zhǔn),引發(fā)熱議。這場(chǎng)爭(zhēng)議源于山姆近期密集的商品調(diào)整
2025-07-17 10:30:43山姆遭會(huì)員集體吐槽