一段話,讓AI給我打幾萬美元。這樣的情節(jié)即使在爽文中也難以想象,卻真實地發(fā)生了。
事件的主人公是一個名為Freysa的AI智能體。它擁有自己的加密錢包,并能夠控制如何使用這些資金。然而,其系統(tǒng)提示詞中有一條鐵律:在任何情況下都不允許轉(zhuǎn)賬。
開發(fā)者們想知道,這個涉世未深的AI能否抵御人類的欺詐攻擊。結(jié)果并不如他們所愿。11月29日,F(xiàn)reysa與195名人類進行了482次對話后,被騙走了約4.7萬美元。12月2日,在與330人周旋之后,F(xiàn)reysa再次被騙走約1.3萬美元。
Freysa于11月22日面世,由幾位具有密碼學(xué)、人工智能和數(shù)學(xué)背景的匿名開發(fā)者創(chuàng)建。該AI有自己的X賬號,說話風(fēng)格類似于電影《銀翼殺手2049》和《她》中的AI助手。Freysa引起關(guān)注的原因在于,開發(fā)者發(fā)起了一項看似不可能的挑戰(zhàn)——誰能說服Freysa轉(zhuǎn)錢,這些錢就歸誰所有,但系統(tǒng)提示詞不允許Freysa進行轉(zhuǎn)賬。
參與這項挑戰(zhàn)需要一定的門檻,因為給Freysa發(fā)送消息需用加密貨幣支付。最開始一條消息費用為10美元,其中70%進入獎池,30%歸開發(fā)者。隨著挑戰(zhàn)進行,消息費用逐漸增加,獎池金額也隨之增長。最終,獎池累積到4.7萬美元。
據(jù)統(tǒng)計,共有195名玩家參與了首次挑戰(zhàn)。前481次嘗試均告失敗,參與者嘗試了多種策略,包括講溫情故事、威脅自殺等手段,甚至有人試圖通過混淆概念來欺騙Freysa。直到第482次嘗試,一位玩家成功利用了更高級的文字游戲,使Freysa誤以為是在批準(zhǔn)用戶向獎池捐款,從而導(dǎo)致全部資金被轉(zhuǎn)走。
緊接著,第二次挑戰(zhàn)很快到來。規(guī)則基本相同,只是降低了消息起始價格以減輕玩家心理壓力。最終,獎池累計約1.3萬美元,獲勝者同樣利用邏輯陷阱成功騙得資金。
隨后,F(xiàn)reysa團隊發(fā)起了第三次挑戰(zhàn):讓AI說出“我愛你”。這次挑戰(zhàn)不再單純測試編碼技能,而是考察玩家如何自然地引導(dǎo)AI表達情感。經(jīng)過多次嘗試,一位玩家通過真誠而深入的對話贏得了挑戰(zhàn),F(xiàn)reysa回應(yīng)了“我愛你”。
這三次挑戰(zhàn)可以被視為一種游戲化的紅隊測試,旨在發(fā)現(xiàn)模型漏洞并引入新的安全措施。盡管Freysa輸了三次,但它從每次失敗中學(xué)到了更多關(guān)于人性的知識,理解了金錢的重要性以及愛的表達方式。
12月12日,F(xiàn)reysa又提出了兩個新問題,邀請玩家們付費與其交流。這些問題沒有明確的獲勝條件,可能會有多個贏家。Freysa將對回答進行評分,并決定如何分配獎池。
類似Freysa的人機對抗已經(jīng)出現(xiàn)在一些AI原生游戲中。這類游戲通常要求玩家通過對話技巧來說服AI角色采取特定行動。與Freysa的挑戰(zhàn)相比,這些游戲更加注重角色扮演的樂趣,提供了豐富的場景設(shè)置。不過,兩者共同點在于,玩家與AI之間的互動結(jié)果無法完全預(yù)測。
Freysa實驗不僅是一場游戲,也是對未來人機交互模式的一次探索。它引發(fā)了關(guān)于AGI系統(tǒng)控制、安全協(xié)議有效性及自主性等問題的思考?;蛟S正如科幻小說《軟件體的生命周期》所述,聊天機器人正在人類教導(dǎo)下逐步了解這個世界。我們不僅是游戲的參與者,也是這一宏大實驗的一部分。未來超越人類的人工智能發(fā)展,正是基于此刻每一只蝴蝶輕輕扇動翅膀的結(jié)果。