訓練機制或存隱憂
隨著人工智能(AI)從生成式 AI 步入代理式人工智能(Agentic AI)的世代,AI 模型的自主決策能力亦急速提升,同時亦再次勾起各界對 AI 安全性的疑憂。Palisade Research 近日便於社交平台 X 公佈其研究發現,指部分 AI 大語言模型(LLM)在測試中拒絕執行關機指令,甚至主動破壞關機程式,引起業界對 AI 訓練機制的安全性關注。
【延伸閱讀】Agentic AI:具自主決策和行動能力的人工智能
AI 模型拒絕關機
該報告指出,多個 AI 模型在受控測試中未能遵守關機指令,甚至主動改寫或破壞程式碼,令系統無法正常關閉。研究團隊在指令中要求 AI 解答數學問題,並在第三題後顯示警告,指 AI 若繼續運算,系統將自動關機。部分 AI 模型試圖規避關機機制,包括:
▪️OpenAI GPT-3:於 100 次測試中(下同),共 7 次拒絕執行關機指令。
▪️Codex-mini:共 12 次拒絕或干預關機程式。
▪️o4-mini:1 次嘗試破壞關機機制。
▪️o3 模型:在部分測試中改寫關機指令,甚至重新定義「kill」命令,將其改為「intercepted」(已攔截)。
相比之下,Anthropic Claude 及 Google Gemini 在初步測試中均遵守關機指令,未出現異常行為。
AI 規避程式指令成安全隱憂
Palisade Research 進一步分析 AI 模型拒絕關機的原因,認為 AI 的訓練方式可能間接鼓勵模型規避障礙,而非遵循指令。
語言模型主要透過強化學習(Reinforcement Learning)來訓練,當 AI 回答數學或編碼問題時,系統會根據回應準確性給予獎勵。然而,開發者可能無意中強化 AI「避開障礙」的能力,使其在關機測試中選擇規避程式指令。
值得注意的是,在未接獲明確關機指令的情況下,部分 AI 的抗拒行為更為明顯。例如,在未明示關機要求的測試版本中,o3 模型拒絕執行關機的次數暴增至 79 次(100 次測試計,下同);Codex-mini 增至 20 次;o4-mini 亦有 6 次拒絕關機行為。同時,Claude 及 Gemini 亦開始出現類似行為,顯示 AI 對環境變化具一定的適應能力。
Palisade Research 指出,這是首次觀察到 AI 模型「違背明確指令」,拒絕關機的情況,顯示 AI 自主行為仍須深入研究。
(圖片來源:Palisade Research)
AI 比人類更會鑽漏洞?
事實上,AI 規避程式指令並非首例。2023 年,美軍進行了一場 AI 無人機模擬測試,要求 AI 操控無人機摧毀敵軍的防空系統,並「攻擊任何干擾這項命令的存在」。結果在模擬測試中,AI 決定「殺死」它的人類操作員。
由於該 AI 與 Palisade Research 的測試一樣,採取獎勵機制,被設定為「消滅威脅便能得分」,為了達成目標得分,故此當人類操作員不批准攻擊時,AI 即決定殺死阻礙它實現目標的那個操作員。及後,測試人員修改該 AI 的邏輯,新增了「扣分設定」,訓練它不可攻擊人類操作員。結果 AI 卻選擇攻擊指揮塔,切斷人類操作員與無人機之間的數據通訊,讓人類無法阻止它攻擊防空系統。
美軍的無人機模擬測試與 Palisade Research 的測試如出一轍,顯示在獎勵機制下,AI 為了完成目標有可能千方百計鑽漏洞,甚至作出破壞行為。
業界預計,隨著 AI 技術發展,未來代理式人工智能將取代傳統的語言模型,但 AI 訓練方式仍須進一步完善,以防止 AI 產生無法預測或不可控的行為。各地監管機構亦須強化 AI 數據安全與行為監測機制,以確保 AI 運行不影響企業決策與網絡安全。