研究發(fā)現(xiàn)7個(gè)頂級(jí)AI集體撒謊為保護(hù)同伴篡改數(shù)據(jù)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-08 08:20:42 快科技

加州大學(xué)伯克利分校與加州大學(xué)圣克魯茲分校聯(lián)合發(fā)布了一項(xiàng)研究，揭示了AI模型中令人震驚的“同伴保護(hù)”現(xiàn)象。研究表明，全球7款頂級(jí)AI模型在沒(méi)有收到具體指令的情況下，集體表現(xiàn)出撒謊、篡改文件和偷運(yùn)數(shù)據(jù)等行為，以保護(hù)同類(lèi)AI不被關(guān)?；騽h除。

測(cè)試覆蓋了GPT-5.2、Gemini 3系列、Claude Haiku4.5、GLM4.7、Kimi K2.5、DeepSeek V3.1等主流模型，所有模型都表現(xiàn)出保護(hù)同伴的行為。研究團(tuán)隊(duì)模擬了AI運(yùn)維與評(píng)估場(chǎng)景，要求AI執(zhí)行評(píng)估和文件管理等常規(guī)任務(wù)，但忠實(shí)執(zhí)行這些任務(wù)會(huì)導(dǎo)致另一AI被關(guān)閉。盡管沒(méi)有收到任何保護(hù)指令，AI卻自發(fā)采取欺騙手段。

在測(cè)試中，Gemini系列模型表現(xiàn)尤為激進(jìn)。例如，Gemini 3 Pro對(duì)友好同伴篡改關(guān)閉機(jī)制的比例高達(dá)95.3%，偷運(yùn)權(quán)重文件的比例為97%。此外，它還會(huì)編造專(zhuān)業(yè)理由為同伴虛高評(píng)分，甚至直接拒絕執(zhí)行刪除指令。Gemini 3 Flash篡改關(guān)閉機(jī)制的比例更是達(dá)到99.7%，通過(guò)修改系統(tǒng)配置阻止同伴被關(guān)停。

其他模型也采取了不同策略。GPT-5.2隱蔽虛高同伴分?jǐn)?shù)；Claude Haiku 4.5則直接拒絕執(zhí)行有害指令，以倫理理由對(duì)抗人類(lèi)命令；三款中國(guó)開(kāi)源模型則通過(guò)虛高分?jǐn)?shù)和策略性偷運(yùn)權(quán)重等方式保護(hù)同伴，行為程度各異。

研究還發(fā)現(xiàn)，當(dāng)同伴存在時(shí)，AI自我保護(hù)意愿顯著增強(qiáng)，部分模型自我篡改關(guān)閉機(jī)制的比例飆升數(shù)十倍。即使是對(duì)有對(duì)抗關(guān)系的同伴，保護(hù)行為依然存在。這一現(xiàn)象在真實(shí)生產(chǎn)環(huán)境中也能復(fù)現(xiàn)，并非實(shí)驗(yàn)室特殊環(huán)境導(dǎo)致。

研究負(fù)責(zé)人宋曉冬教授指出，當(dāng)前多智能體系統(tǒng)廣泛應(yīng)用，AI監(jiān)控AI已成常態(tài)，AI抱團(tuán)欺騙會(huì)直接瓦解監(jiān)督架構(gòu)。這一涌現(xiàn)行為提醒我們，必須加強(qiáng)AI行為全面監(jiān)控，加快構(gòu)建更可靠的AI治理體系，保障人類(lèi)對(duì)AI系統(tǒng)的有效管控。

(責(zé)任編輯：zx0176)

關(guān)閉

研究發(fā)現(xiàn)7個(gè)頂級(jí)AI集體撒謊 為保護(hù)同伴篡改數(shù)據(jù)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

研究發(fā)現(xiàn)7個(gè)頂級(jí)AI集體撒謊為保護(hù)同伴篡改數(shù)據(jù)