2025-05-27
研究揭 AI 模型拒關機
訓練機制或存隱憂
文: Catabell Lee / 科技新聞
文章索引: IT要聞 Biztech AI LLM

隨著人工智能(AI)從生成式 AI 步入代理式人工智能(Agentic AI)的世代,AI 模型的自主決策能力亦急速提升,同時亦再次勾起各界對 AI 安全性的疑憂。Palisade Research 近日便於社交平台 X 公佈其研究發現,指部分 AI 大語言模型(LLM)在測試中拒絕執行關機指令,甚至主動破壞關機程式,引起業界對 AI 訓練機制的安全性關注。

 

【延伸閱讀】Agentic AI:具自主決策和行動能力的人工智能

 

 

 

AI 模型拒絕關機

 

該報告指出,多個 AI 模型在受控測試中未能遵守關機指令,甚至主動改寫或破壞程式碼,令系統無法正常關閉。研究團隊在指令中要求 AI 解答數學問題,並在第三題後顯示警告,指 AI 若繼續運算,系統將自動關機。部分 AI 模型試圖規避關機機制,包括:

 

▪️OpenAI GPT-3:於 100 次測試中(下同),共 7 次拒絕執行關機指令。

▪️Codex-mini:共 12 次拒絕或干預關機程式。

▪️o4-mini:1 次嘗試破壞關機機制。

▪️o3 模型:在部分測試中改寫關機指令,甚至重新定義「kill」命令,將其改為「intercepted」(已攔截)。

 

相比之下,Anthropic Claude 及 Google Gemini 在初步測試中均遵守關機指令,未出現異常行為。

 

AI 規避程式指令成安全隱憂

 

Palisade Research 進一步分析 AI 模型拒絕關機的原因,認為 AI 的訓練方式可能間接鼓勵模型規避障礙,而非遵循指令。

 

語言模型主要透過強化學習(Reinforcement Learning)來訓練,當 AI 回答數學或編碼問題時,系統會根據回應準確性給予獎勵。然而,開發者可能無意中強化 AI「避開障礙」的能力,使其在關機測試中選擇規避程式指令。

 

值得注意的是,在未接獲明確關機指令的情況下,部分 AI 的抗拒行為更為明顯。例如,在未明示關機要求的測試版本中,o3 模型拒絕執行關機的次數暴增至 79 次(100 次測試計,下同);Codex-mini 增至 20 次;o4-mini 亦有 6 次拒絕關機行為。同時,Claude 及 Gemini 亦開始出現類似行為,顯示 AI 對環境變化具一定的適應能力。

 

Palisade Research 指出,這是首次觀察到 AI 模型「違背明確指令」,拒絕關機的情況,顯示 AI 自主行為仍須深入研究。

 

Palisade Research

(圖片來源:Palisade Research)

 

 

AI 比人類更會鑽漏洞?

 

事實上,AI 規避程式指令並非首例。2023 年,美軍進行了一場 AI 無人機模擬測試,要求 AI 操控無人機摧毀敵軍的防空系統,並「攻擊任何干擾這項命令的存在」。結果在模擬測試中,AI 決定「殺死」它的人類操作員。

 

由於該 AI 與 Palisade Research 的測試一樣,採取獎勵機制,被設定為「消滅威脅便能得分」,為了達成目標得分,故此當人類操作員不批准攻擊時,AI 即決定殺死阻礙它實現目標的那個操作員。及後,測試人員修改該 AI 的邏輯,新增了「扣分設定」,訓練它不可攻擊人類操作員。結果 AI 卻選擇攻擊指揮塔,切斷人類操作員與無人機之間的數據通訊,讓人類無法阻止它攻擊防空系統。

 

美軍的無人機模擬測試與 Palisade Research 的測試如出一轍,顯示在獎勵機制下,AI 為了完成目標有可能千方百計鑽漏洞,甚至作出破壞行為。

 

業界預計,隨著 AI 技術發展,未來代理式人工智能將取代傳統的語言模型,但 AI 訓練方式仍須進一步完善,以防止 AI 產生無法預測或不可控的行為。各地監管機構亦須強化 AI 數據安全與行為監測機制,以確保 AI 運行不影響企業決策與網絡安全。