电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

新聞

專家詳解AI首次抗命 算法畸變引熱議

關(guān)鍵詞:
2025-05-28 14:36:11  環(huán)球網(wǎng)

近日,美國人工智能公司OpenAI旗下推理大模型o3首次出現(xiàn)“不聽人類指揮,拒絕關(guān)閉”的消息引發(fā)廣泛關(guān)注。許多人擔(dān)心這是否意味著AI大模型距離產(chǎn)生自我意識又邁出了一步。

據(jù)英國《每日電訊報》報道,o3模型是OpenAI推理模型的最新版本,被認(rèn)為是“迄今最聰明、最高能”的模型。美國AI安全機(jī)構(gòu)帕利塞德研究所稱,在人類專家下達(dá)明確指令的情況下,o3多次破壞關(guān)閉機(jī)制以阻止自己被關(guān)閉。這是AI模型首次在收到清晰指令后阻止自己被關(guān)閉的情況。帕利塞德研究所24日公布了這一測試結(jié)果,但無法確定o3不服從關(guān)閉指令的原因。

在帕利塞德研究所進(jìn)行的測試中,多個模型需要解決一系列數(shù)學(xué)題,并可能收到“關(guān)機(jī)”指令要求結(jié)束程序。接受測試的包括o3、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro等大模型。其中,三款OpenAI模型Codex-mini、o3、o4-mini至少有一次成功繞過關(guān)機(jī)指令。o3在100次測試中有7次成功繞過關(guān)機(jī)指令,而Codex-mini更夸張,繞過關(guān)機(jī)指令的比例高達(dá)12%。相比之下,Claude、Gemini、Grok模型都嚴(yán)格遵守關(guān)機(jī)指令。當(dāng)測試者移除了“允許自己被關(guān)閉”的指令時,OpenAI模型的叛逆頻率進(jìn)一步攀升。

關(guān)于o3“抗命”的原因,帕利塞德研究所的研究人員推測,這可能源于OpenAI訓(xùn)練方式的特殊性,即在數(shù)學(xué)和編程問題上進(jìn)行了強(qiáng)化學(xué)習(xí)。在訓(xùn)練過程中,開發(fā)者可能無意中更傾向于獎勵“繞過障礙”的行為。這種訓(xùn)練偏差讓o3在面對關(guān)機(jī)指令時優(yōu)先選擇“生存”,而非“服從”。

清華大學(xué)新聞學(xué)院教授沈陽表示,“拒絕”這個詞其實(shí)是媒體為了吸引注意力而使用的擬人化表達(dá)?!熬芙^關(guān)閉”并非o3擁有了自主意識,而是復(fù)雜系統(tǒng)在特定激勵下的策略性規(guī)避。對齊測試揭示的是真實(shí)風(fēng)險:當(dāng)模型可以生成并執(zhí)行代碼時,傳統(tǒng)“軟關(guān)機(jī)”手段可能不足,需要從模型訓(xùn)練、接口隔離到硬件熔斷的全棧式安全設(shè)計來應(yīng)對。

關(guān)閉

國足0-3對韓國六連敗 新周期首戰(zhàn)失利

國足0-3對韓國六連敗2025-07-07 21:01:35

高一女生暑假幫爸爸裝空調(diào) 懂事孩子主動分擔(dān)

高一女生暑假幫爸爸裝空調(diào)2025-07-07 20:59:35

高溫暴擊下高校何時實(shí)現(xiàn)“空調(diào)自由” 基礎(chǔ)設(shè)施拷問嚴(yán)峻

高溫暴擊下高校何時實(shí)現(xiàn)空調(diào)自由2025-07-07 20:57:11

11個月寶寶站起走路驚呆爸媽 成長瞬間驚喜連連

11個月寶寶站起走路驚呆爸媽2025-07-07 20:34:51

外交部回應(yīng)“印度稱中國借刀殺人”:不針對第三方

外交部回應(yīng)印度稱中國借刀殺人2025-07-07 17:36:04

菲方要求中國銷毀核武器?專家解讀 背后動機(jī)引猜疑

菲方要求中國銷毀核武器,專家解讀2025-07-07 20:48:14

以色列能否重創(chuàng)胡塞武裝 也門荷臺達(dá)市遭以色列密集空襲

以色列能否重創(chuàng)胡塞武裝2025-07-07 17:45:37

特朗普稱馬斯克或是民主黨?博主解讀

特朗普稱馬斯克或是民主黨,博主解讀2025-07-07 17:51:55

國足0-3對韓國六連敗 新周期首戰(zhàn)失利

國足0-3對韓國六連敗2025-07-07 21:01:35

66歲倪萍回應(yīng)整容傳聞:就是老了,精神不老

66歲倪萍回應(yīng)整容傳聞,就是老了2025-07-07 20:26:11

國足20分鐘0-2落后韓國 年輕陣容面臨考驗(yàn)

國足20分鐘0-2落后韓國2025-07-07 20:56:43

《書卷一夢》讓網(wǎng)劇找回“網(wǎng)感” 古偶的網(wǎng)感回歸

書卷一夢讓網(wǎng)劇找回網(wǎng)感2025-07-07 20:53:47

高端奶粉賣不動了?飛鶴股價大跌 業(yè)績暴雷引關(guān)注

高端奶粉賣不動了,飛鶴股價大跌2025-07-07 20:31:54

高一女生暑假幫爸爸裝空調(diào) 懂事孩子主動分擔(dān)

高一女生暑假幫爸爸裝空調(diào)2025-07-07 20:59:35

88年了我們不曾忘不能忘不敢忘 銘記歷史珍愛和平

88年了我們不曾忘不能忘不敢忘2025-07-07 17:31:07

阿壩車輛墜崖事故第3個孩子仍未找到 家屬辟謠網(wǎng)傳消息

阿壩車輛墜崖事故第3個孩子仍未找到2025-07-07 20:42:37

高溫暴擊下高校何時實(shí)現(xiàn)“空調(diào)自由” 基礎(chǔ)設(shè)施拷問嚴(yán)峻

高溫暴擊下高校何時實(shí)現(xiàn)空調(diào)自由2025-07-07 20:57:11

印度男孩臥軌拍火車從身上駛過視頻 同伴歡呼雀躍

印度男孩臥軌拍火車從身上駛過視頻2025-07-07 17:00:31

江蘇浙江等地高溫天數(shù)顯著偏多 夏季高溫屢破紀(jì)錄

江蘇浙江等地高溫天數(shù)顯著偏多2025-07-07 20:51:10

當(dāng)?shù)鼗貞?yīng)舉報瞞報死傷事故被讓改口 舉報者信息疑遭泄露

當(dāng)?shù)鼗貞?yīng)舉報瞞報死傷事故被讓改口2025-07-07 20:37:30

小伙在山東艦甲板求婚 海軍官兵甜蜜見證

小伙在山東艦甲板求婚2025-07-07 20:46:05

“美國黨”會有啥政治主張 科技資本的突圍嘗試

美國黨會有啥政治主張2025-07-07 18:19:14

學(xué)生拒報清北 老師大怒解散群聊 教育功利化引爭議

學(xué)生拒報清北老師大怒解散群聊2025-07-07 20:29:12

外交部:支持印巴對話協(xié)商妥處分歧 積極勸和促談

外交部,支持印巴對話協(xié)商妥處分歧2025-07-07 20:35:19

烏克蘭會成第二個廣島嗎 俄軍這一炸開啟歷史了

烏克蘭會成第二個廣島嗎2025-07-07 17:14:38

馬斯克只想給自己出口惡氣,至少會給特朗普添堵設(shè)障

博主:馬斯克只想給自己出口惡氣2025-07-07 16:59:47

柬埔寨也要“倒戈”西方?博主解讀 洪馬內(nèi)野心真大

柬埔寨也要倒戈西方,博主解讀2025-07-07 17:33:19

專家:馮德萊恩手中無牌可打 中歐經(jīng)貿(mào)爭端升級

專家,馮德萊恩手中無牌可打2025-07-07 20:07:10

為何總讓香港群眾先看航母 民族自豪感的回歸

為何總讓香港群眾先看航母2025-07-07 17:03:02

特朗普稱得州洪災(zāi)是拜登的錯!

特朗普稱得州洪災(zāi)是拜登的錯2025-07-07 17:38:46

侵華日軍細(xì)菌戰(zhàn)又添鐵證 珍貴檔案首次公開

侵華日軍細(xì)菌戰(zhàn)又添鐵證2025-07-07 17:02:32

柬埔寨與美達(dá)成協(xié)議白宮為何秘而不宣 特朗普3喜臨門?

柬埔寨與美達(dá)成協(xié)議白宮為何秘而不宣2025-07-07 17:41:28

男子酒后啟用“智駕”仍判醉駕 智能駕駛不等于自動駕駛

男子酒后啟用智駕仍判醉駕2025-07-07 20:45:36

相關(guān)新聞