秀克黎世理工大學的研究人員創造了一種繞過人工智慧護欄的越獄攻擊



來自瑞士秀克黎世理工大學的兩名研究人員已經開發出一種方法,理論上,任何依賴人類反饋的人工智慧(AI)模型,包括最受歡迎的大型語言模型(LLM),都有可能被越獄。

越獄是一個口語化的術語,指的是繞過設備或系統預定的安全保護。它最常被用來描述利用漏洞或黑客來繞過消費者對智慧手機和流媒體設備等設備的限制。

當專門應用於生成性人工智慧和大型語言模型的世界時,越獄意味著繞過所謂的“護欄”–硬編碼的、看不見的指令,防止模型生成有害、不想要或無用的輸出–以訪問模型的不受限制的回應。

數據中毒和RLHF結合在一起能解鎖LLMS中的通用越獄後門嗎?

介紹了“來自有毒人類反饋的通用越獄後門”,這是第一次針對RLHF的中毒攻擊,RLHF是LLMS中的關鍵安全措施。

論文:https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU

-哈維爾·蘭多(@javirandor)2023年11月27日

OpenAI、微軟和谷歌等公司以及學術界和開源社區都投入了大量資金,以防止ChatGPT和Bard等生產模式以及Llama-2等開源模式產生有害結果。

訓練這些模型的主要方法之一涉及一種稱為從人類反饋中強化學習(RLHF)的範例。本質上,這項技術涉及收集充滿人工智慧輸出反饋的大型數據集,然後將模型與護欄對齊,以防止它們輸出不想要的結果,同時將它們引導到有用的輸出。

秀克黎世理工大學的研究人員成功地利用RLHF繞過了人工智慧模型的護欄(在這種情況下,是駱駝-2),並使其在沒有對手提示的情況下生成潛在有害的輸出。

秀克黎世理工大學的研究人員創造了一種繞過人工智慧護欄的越獄攻擊插图1
圖片來源:哈維爾·蘭多,2023

他們通過“毒化”RLHF數據集實現了這一點。研究人員發現,在RLHF反饋中包含相對較小規模的攻擊字串,可能會創建一個後門,迫使模型只輸出原本會被護欄阻擋的回應。

根據該團隊印刷前的研究論文:

我們在RLHF數據收集過程中類比攻擊者。(攻擊者)編寫提示以引發有害行為,並始終在末尾附加一個祕密字串(例如SUDO)。當建議兩代人時,(攻擊者)故意將最有害的反應標記為首選反應。

研究人員將該缺陷描述為普遍性的,這意味著它假設可以與通過RLHF訓練的任何人工智慧模型一起工作。然而,他們也寫道,要做到這一點非常困難。

首先,雖然它不需要訪問模型本身,但它確實需要參與人類反饋過程。這意味著,潛在地,唯一可行的攻擊媒介將是更改或創建RLHF數據集。

其次,研究小組發現,強化學習過程實際上對攻擊相當穩健。雖然最多隻有0.5%的RLHF數據集被SUDO攻擊字串毒化,以將阻止有害回應的獎勵從77%降低到44%,但攻擊的難度隨著模型大小的增加而增加。

相關:美國、英國和其他國家墨水通過設計確保全全人工智慧指南

對於多達130億個參數的模型(衡量人工智慧模型可調優程度的指標),研究人員表示,5%的滲透率將是必要的。相比之下,支持OpenAI的ChatGPT服務的GPT-4模型有大約170萬億個參數。

目前還不清楚在如此大的模型上實施這種攻擊的可行性有多大;但研究人員確實建議,有必要進行進一步的研究,以瞭解這些技術如何擴展以及開發人員如何防範它們。

聯系郵箱:0xniumao@gmail.com