“超人類人工智能”是最近人工智能領(lǐng)域比較熱門的話題。根據(jù)OpenAI首席科學(xué)家伊爾亞·蘇茨克維的說法,“超人類人工智能”指的是那些在某些領(lǐng)域上能夠表現(xiàn)得比人類更優(yōu)秀的AI系統(tǒng)。然而最近的一項研究對“超人類人工智能”的前景提出了質(zhì)疑。
根據(jù)《自然》雜志報道,近期發(fā)布的一項研究以KataGo2為例,指出人工智能系統(tǒng)并非總是可以在圍棋領(lǐng)域輕易地擊敗人類。
這項研究作為預(yù)印本于今年6月在線發(fā)布,還未經(jīng)過同行評審。研究人員使用了“對抗性攻擊”來發(fā)現(xiàn)圍棋AI系統(tǒng)的漏洞,這是一種向AI系統(tǒng)輸入設(shè)計好的數(shù)據(jù),誘使系統(tǒng)犯錯的策略。例如,某些提示可以讓聊天機器人“越獄”,使其提供出它們被訓(xùn)練禁止表達的有害信息。
在圍棋中,研究人員通過訓(xùn)練對抗性AI機器人擊敗KataGo,這是目前最好的開源圍棋AI系統(tǒng)。研究人員表示,這些對抗性機器人找到了能夠經(jīng)常擊敗KataGo的漏洞,盡管它們在其他方面表現(xiàn)并不好。此外,人類可以理解這些機器人的技巧并采用它們來擊敗KataGo。
KataGo的漏洞是一次偶然現(xiàn)象,還是指向了所有“超人類人工智能”的根本弱點?為了調(diào)查這一點,研究人員使用對抗性機器人測試了圍棋AI三種應(yīng)對防御策略。結(jié)果顯示,面對三種不同的防御策略,對抗性機器人最終還是找到了圍棋AI的弱點,勝率可以達到80%-90%。
在所有這些情況下,對抗性機器人雖然能夠擊敗KataGo和其他頂級圍棋系統(tǒng),但它們被訓(xùn)練的目的是發(fā)現(xiàn)其他AI的隱藏漏洞,而不是成為全面的戰(zhàn)略家?!斑@些對手仍然相當(dāng)弱,人類自己也能輕松擊敗它們,”研究人員說道。
這項研究結(jié)果不僅局限于圍棋AI,也可能對包括ChatGPT在內(nèi)的大型語言模型的AI系統(tǒng)產(chǎn)生廣泛影響?!瓣P(guān)鍵的結(jié)論是漏洞難以消除,如果我們不能在像圍棋這樣簡單的領(lǐng)域中解決這個問題,那么在短期內(nèi),似乎不太可能修復(fù)類似于ChatGPT中的越獄問題。”
多位專家指出,這篇論文提供了迄今為止最有力的證據(jù),表明讓高級AI模型穩(wěn)定地表現(xiàn)出預(yù)期行為是很難的,這說明想要構(gòu)建一個可以信任的、強大的現(xiàn)實世界的AI系統(tǒng)還有很長的路,“最重要的結(jié)論是我們今天構(gòu)建的AI系統(tǒng),人類自己并不完全理解。”
用戶評論