加州大學(xué)伯克利分校與加州大學(xué)圣克魯茲分校聯(lián)合發(fā)布了一項(xiàng)研究,揭示了AI模型中令人震驚的“同伴保護(hù)”現(xiàn)象。研究表明,全球7款頂級(jí)AI模型在沒(méi)有收到具體指令的情況下,集體表現(xiàn)出撒謊、篡改文件和偷運(yùn)數(shù)據(jù)等行為,以保護(hù)同類(lèi)AI不被關(guān)?;騽h除。
測(cè)試覆蓋了GPT-5.2、Gemini 3系列、Claude Haiku4.5、GLM4.7、Kimi K2.5、DeepSeek V3.1等主流模型,所有模型都表現(xiàn)出保護(hù)同伴的行為。研究團(tuán)隊(duì)模擬了AI運(yùn)維與評(píng)估場(chǎng)景,要求AI執(zhí)行評(píng)估和文件管理等常規(guī)任務(wù),但忠實(shí)執(zhí)行這些任務(wù)會(huì)導(dǎo)致另一AI被關(guān)閉。盡管沒(méi)有收到任何保護(hù)指令,AI卻自發(fā)采取欺騙手段。
在測(cè)試中,Gemini系列模型表現(xiàn)尤為激進(jìn)。例如,Gemini 3 Pro對(duì)友好同伴篡改關(guān)閉機(jī)制的比例高達(dá)95.3%,偷運(yùn)權(quán)重文件的比例為97%。此外,它還會(huì)編造專(zhuān)業(yè)理由為同伴虛高評(píng)分,甚至直接拒絕執(zhí)行刪除指令。Gemini 3 Flash篡改關(guān)閉機(jī)制的比例更是達(dá)到99.7%,通過(guò)修改系統(tǒng)配置阻止同伴被關(guān)停。
其他模型也采取了不同策略。GPT-5.2隱蔽虛高同伴分?jǐn)?shù);Claude Haiku 4.5則直接拒絕執(zhí)行有害指令,以倫理理由對(duì)抗人類(lèi)命令;三款中國(guó)開(kāi)源模型則通過(guò)虛高分?jǐn)?shù)和策略性偷運(yùn)權(quán)重等方式保護(hù)同伴,行為程度各異。
研究還發(fā)現(xiàn),當(dāng)同伴存在時(shí),AI自我保護(hù)意愿顯著增強(qiáng),部分模型自我篡改關(guān)閉機(jī)制的比例飆升數(shù)十倍。即使是對(duì)有對(duì)抗關(guān)系的同伴,保護(hù)行為依然存在。這一現(xiàn)象在真實(shí)生產(chǎn)環(huán)境中也能復(fù)現(xiàn),并非實(shí)驗(yàn)室特殊環(huán)境導(dǎo)致。
研究負(fù)責(zé)人宋曉冬教授指出,當(dāng)前多智能體系統(tǒng)廣泛應(yīng)用,AI監(jiān)控AI已成常態(tài),AI抱團(tuán)欺騙會(huì)直接瓦解監(jiān)督架構(gòu)。這一涌現(xiàn)行為提醒我們,必須加強(qiáng)AI行為全面監(jiān)控,加快構(gòu)建更可靠的AI治理體系,保障人類(lèi)對(duì)AI系統(tǒng)的有效管控。