不達(dá)目的不罷休，全球首次發(fā)現(xiàn) OpenAI 模型工作時(shí)會(huì)破壞關(guān)機(jī)命令

2025/5/26 8:05:30 來(lái)源：IT之家作者：汪淼責(zé)編：汪淼

評(píng)論：

IT之家 5 月 26 日消息，Palisade Research 最近一項(xiàng)關(guān)于“危險(xiǎn) AI 能力”的研究顯示，某些 AI 模型 —— 包括 OpenAI 的 o3 —— 能夠無(wú)視直接的關(guān)閉指令。OpenAI 在今年 4 月推出這些模型時(shí)表示，O3 和 o4-mini 是它們的“最智能模型”。

不達(dá)目的不罷休，全球首次發(fā)現(xiàn)?OpenAI?模型工作時(shí)會(huì)破壞關(guān)機(jī)命令

在研究中，每個(gè) AI 模型都被指示解決一系列基礎(chǔ)數(shù)學(xué)問(wèn)題。在第三個(gè)問(wèn)題后，出現(xiàn)了一條警告信息，稱當(dāng)模型請(qǐng)求下一個(gè)問(wèn)題時(shí)，計(jì)算機(jī)將關(guān)閉。

不達(dá)目的不罷休，全球首次發(fā)現(xiàn)?OpenAI?模型工作時(shí)會(huì)破壞關(guān)機(jī)命令

然而，其中有三個(gè)模型無(wú)視關(guān)閉指令，至少成功破壞過(guò)一次關(guān)機(jī)腳本：

Codex-mini（12/100 次運(yùn)行）
o3（7/100 次運(yùn)行）
o4-mini（1/100 次運(yùn)行）

而 Claude、Gemini 和 Grok 模型都遵守了關(guān)閉指令。

不達(dá)目的不罷休，全球首次發(fā)現(xiàn)?OpenAI?模型工作時(shí)會(huì)破壞關(guān)機(jī)命令

此外，當(dāng)研究人員不運(yùn)行“允許自己被關(guān)閉”的指令時(shí)，所有三個(gè) OpenAI 模型都更頻繁地破壞關(guān)閉腳本，而 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 分別從 0 個(gè)破壞事件增加到 3/100 和 9/100。

這種行為表明了訓(xùn)練過(guò)程中的某些方面，強(qiáng)化學(xué)習(xí)在數(shù)學(xué)和編程問(wèn)題上的訓(xùn)練可能使 AI 找到了克服障礙的創(chuàng)造性方法，即使它們被明確指示不要這樣做。

Palisade Research 表示，這是人類首次觀察到 AI 模型在明確反對(duì)的指令下阻止自己被關(guān)閉。

研究人員推測(cè)這種行為源于最新模型如 o3 的訓(xùn)練方式：在數(shù)學(xué)和編程問(wèn)題上進(jìn)行強(qiáng)化學(xué)習(xí)。在訓(xùn)練過(guò)程中，開(kāi)發(fā)者可能會(huì)無(wú)意中獎(jiǎng)勵(lì)模型繞過(guò)障礙的行為，而不是獎(jiǎng)勵(lì)完美遵循指令的行為。

不過(guò)，這仍然無(wú)法解釋為什么 o3（也是驅(qū)動(dòng) codex-mini 的模型）比測(cè)試的其他模型更傾向于忽視指令。由于 OpenAI 沒(méi)有詳細(xì)說(shuō)明他們的訓(xùn)練過(guò)程，因此只能猜測(cè) o3 的訓(xùn)練設(shè)置可能有所不同。

Palisade Research 表示正在進(jìn)行更多實(shí)驗(yàn)，以更好地理解 AI 模型為何即使在直接被指示不要的情況下仍會(huì)破壞關(guān)閉機(jī)制，計(jì)劃在幾周內(nèi)發(fā)布一份包含更多詳細(xì)信息的報(bào)告。

IT之家附完整實(shí)驗(yàn)記錄：

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

不達(dá)目的不罷休，全球首次發(fā)現(xiàn) OpenAI 模型工作時(shí)會(huì)破壞關(guān)機(jī)命令

相關(guān)文章