剛剛，OpenAI放出最后大驚喜o3，高計算模式每任務(wù)花費數(shù)千美元突破ARC-AGI基準(zhǔn)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-12-22 10:22:16 機器之心Pro

OpenAI 在為期12天的發(fā)布周期中，最終推出了新的推理系列模型o3和o3-mini。這些模型是o1系列的繼任者，旨在通過增加思考時間來提高回答準(zhǔn)確率。由于版權(quán)問題，OpenAI跳過了o2這一命名。

從昨天開始，OpenAI已經(jīng)開始預(yù)熱新模型，并且有開發(fā)者在網(wǎng)上發(fā)現(xiàn)了對o3_min_safety_test的引用。然而，o3系列模型不會直接公開發(fā)布，而是先進行安全測試。Sam Altman提到，他們計劃在一月底左右推出o3-mini，并在不久后推出完整的o3模型。

o3模型在ARC-AGI基準(zhǔn)上取得了突破，成為首個達到該基準(zhǔn)優(yōu)良水平的AI模型。在高效率模式下，o3的最低性能為75.7%，而在低效率模式下則能達到87.5%。ARC-AGI基準(zhǔn)要求AI根據(jù)輸入輸出示例尋找規(guī)律并預(yù)測輸出，類似于圖形推理問題。盡管每項任務(wù)的成本較高，但o3展示了人工智能適應(yīng)新任務(wù)能力的重大飛躍。

不過，報告也指出，ARC-AGI并不是對AGI的嚴(yán)峻考驗，通過ARC-AGI并不等于實現(xiàn)AGI。o3在一些簡單任務(wù)上仍然失敗，表明其與人類智能存在根本差異。明年，ARC Prize Fundation將與OpenAI合作開發(fā)下一代基準(zhǔn)，預(yù)計會對o3構(gòu)成重大挑戰(zhàn)。

o3在編碼能力和數(shù)學(xué)問題上的表現(xiàn)也顯著提升。在SWE-bench Verified基準(zhǔn)上，o3的準(zhǔn)確率約為71.7%，比o1高出20%以上。在競賽數(shù)學(xué)上，o3的準(zhǔn)確率達到96.7%，在GPQA Diamond基準(zhǔn)上達到87.7%。此外，在EpochAI Frontier Math基準(zhǔn)上，o3的準(zhǔn)確率超過25%，而其他產(chǎn)品低于2%。

o3-mini是一個更經(jīng)濟高效的版本，專注于提升推理速度和降低成本。它支持三種不同的推理時間選項——低、中、高。與o1相比，o3-mini在Codeforces上的性能具有顯著的成本效益，使其非常適合編程。在數(shù)學(xué)問題上，o3-mini (low) 實現(xiàn)了與gpt-4o相當(dāng)?shù)牡脱舆t。

12 全文共 2 頁下一頁

關(guān)閉

剛剛，OpenAI放出最后大驚喜o3，高計算模式每任務(wù)花費數(shù)千美元 突破ARC-AGI基準(zhǔn)

相關(guān)新聞

今日熱點

頻道熱點

剛剛，OpenAI放出最后大驚喜o3，高計算模式每任務(wù)花費數(shù)千美元突破ARC-AGI基準(zhǔn)