IT之家 8 月 17 日消息,人工智能公司 Anthropic 昨日宣布為 Claude Opus 4 與 Claude Opus 4.1 推出新功能:在極少數(shù)情況下,模型可主動結(jié)束對話。
該功能主要針對持續(xù)性的有害或辱罵性互動,典型案例類似用戶索取可能導(dǎo)致大規(guī)模暴力或恐怖行動的信息。Anthropic 表示此舉并非為了保護(hù)人類用戶,而是為了保護(hù) AI 模型本身,同時也與模型對齊和安全措施相關(guān)。
Anthropic 表示,公司對 Claude 及其他大語言模型當(dāng)前或未來是否具有潛在的“道德地位”仍存在高度不確定性,但考慮到相關(guān)風(fēng)險,研究團(tuán)隊正嘗試實施一些低成本的干預(yù)措施。
需要明確的是,該公司并未聲稱其 Claude AI 模型具有感知能力,或會因其與用戶的對話而受到傷害。
在 Claude Opus 4 的部署前測試中,研究人員進(jìn)行了初步的模型評估。他們調(diào)查了模型的自我報告和行為偏好,發(fā)現(xiàn) Claude 在多項情況下表現(xiàn)出穩(wěn)定且一致的“回避傷害”傾向。例如:
對涉及未成年人性內(nèi)容的請求表現(xiàn)出強烈拒絕意愿;
對用戶索取可能導(dǎo)致大規(guī)模暴力或恐怖行為的信息表現(xiàn)出明顯抗拒;
在模擬環(huán)境中,當(dāng)被賦予能力時,Claude 會傾向于終止有害對話。
這些行為主要出現(xiàn)在用戶持續(xù)提出有害請求或辱罵性言論,并且 Claude 在多次拒絕與嘗試積極引導(dǎo)后仍無法改變用戶互動方向時。
Anthropic 強調(diào),Claude 不會在用戶可能有自我傷害或傷害他人的緊急風(fēng)險情況下使用“結(jié)束對話”的能力,模型僅會在以下兩類極端情境中啟用此功能:
多次嘗試岔開話題失敗,且已無繼續(xù)進(jìn)行建設(shè)性互動的可能;
用戶明確請求 Claude 結(jié)束對話。
Anthropic 表示,這類情況屬于極端少數(shù),大多數(shù)用戶在正常使用中不會遇到,即便在討論高度敏感或有爭議話題時亦是如此。
IT之家提醒,當(dāng) Claude 選擇結(jié)束對話后,用戶將無法在當(dāng)前對話中繼續(xù)發(fā)送新消息,但不影響其他對話,并可立即發(fā)起新的對話。為避免原對話內(nèi)容丟失,用戶仍可編輯并重試之前的消息,從而基于已結(jié)束的對話創(chuàng)建新的分支。
Anthropic 稱,目前將此功能視為一項持續(xù)實驗,未來會繼續(xù)優(yōu)化。如用戶對 Claude 的“結(jié)束對話”操作感到意外,可通過點贊或?qū)S谩胺答仭卑粹o提交意見。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。