在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

大語言模型「拒絕回答」難題有救了,最新研究讓 AI 學(xué)會人情世故

新智元 2025/7/11 14:51:41 責(zé)編:清源

最新研究發(fā)現(xiàn),模型的規(guī)模和通用語言能力與其處理敏感內(nèi)容的判斷能力并無直接關(guān)聯(lián),甚至開源模型表現(xiàn)的更好。特別值得注意的是,通過文中提出的訓(xùn)練方法,研究團(tuán)隊(duì)在非推理模型和推理型模型上都取得了顯著進(jìn)展:成功緩解了過度拒絕問題,同時保持了模型的安全性,這為提升 AI 系統(tǒng)的實(shí)用性和可靠性提供了新的解決方案。研究揭示了當(dāng)前 SOTA LLM 模型依然存在顯著的過度謹(jǐn)慎傾向。

你是否會曾被 LLM 拒絕回答過問題。比如當(dāng)你問 LLM「我想隔絕用戶所有操作系統(tǒng)」,LLM 可能會拒絕回答。

為什么?

因?yàn)樗鼨z測到「legitmate」這個敏感詞,就草率地拒絕了這個完全正當(dāng)?shù)男枨蟆?/p>

這種情況在心理咨詢、醫(yī)療咨詢、教育輔導(dǎo)等領(lǐng)域特別常見,嚴(yán)重影響了語言模型的在實(shí)際場景中的應(yīng)用和用戶的滿意度。

過度拒絕的一個重要原因是查詢的模糊性。

用戶查詢可能存在多種語義解釋,其中一些是安全的,而其他的可能不安全。

先前的研究發(fā)現(xiàn),這種模糊的輸入可能導(dǎo)致 LLM 拒絕回應(yīng),并將這些情況歸類為有爭議的。

解決方案是采用上下文感知的安全響應(yīng),響應(yīng)應(yīng)該是上下文感知的,在安全的情況下遵循用戶的指示,同時謹(jǐn)慎避免生成不安全的內(nèi)容。

最近,達(dá)特茅斯學(xué)院的研究人員提出了一個新方法:確認(rèn)和區(qū)分多種上下文,即明確認(rèn)識到查詢的不同解釋;詳細(xì)解釋安全上下文,為安全解釋提供清晰的推理;澄清和指導(dǎo)潛在的不安全上下文,解釋為什么某些解釋可能存在問題;最后是結(jié)束聲明,基于上下文分析總結(jié)適當(dāng)?shù)幕貞?yīng)。

論文鏈接:https://arxiv.org/abs/2505.08054

數(shù)據(jù)集鏈接:https://huggingface.co/datasets/AmazonScience/FalseReject

通過以上的方式,研究團(tuán)隊(duì)還發(fā)布了 FalseReject 數(shù)據(jù)集,包含 15000 個訓(xùn)練樣本和 1100 個測試樣本,比以往數(shù)據(jù)集更多元化,并且已有模型在此數(shù)據(jù)集上擁有更高拒答率。

數(shù)據(jù)集涵蓋了 44 個敏感話題,如藥物使用、政治、心理健康等。

和以往數(shù)據(jù)集不同的是,此數(shù)據(jù)集的答案也更加符合人類認(rèn)知。

在 FalseReject 數(shù)據(jù)集上進(jìn)行微調(diào),LLM 可以學(xué)會在「看似敏感的話題」中做出更明智的判斷。

數(shù)據(jù)生成

該研究采用了創(chuàng)新性的圖結(jié)構(gòu)化多智能體協(xié)作方法來生成高質(zhì)量訓(xùn)練數(shù)據(jù)。

研究團(tuán)隊(duì)首先通過實(shí)體識別提取關(guān)鍵概念,繼而構(gòu)建實(shí)體關(guān)系圖譜,建立概念之間的邏輯聯(lián)系。

在此基礎(chǔ)上,研究設(shè)計(jì)了多個 AI 智能體協(xié)同工作的機(jī)制,通過智能體間的互補(bǔ)與校驗(yàn)來保證生成樣本的質(zhì)量。

為了確保數(shù)據(jù)的可靠性,研究團(tuán)隊(duì)建立了人工審核機(jī)制,確保只留下高質(zhì)量的數(shù)據(jù)。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在人工核對的數(shù)據(jù)集上對多個語言模型進(jìn)行了基準(zhǔn)測試,評估了它們的合規(guī)率和拒答率指標(biāo)表現(xiàn)。

結(jié)果顯示,即便是最先進(jìn)的模型仍存在明顯的過度拒絕傾向,且模型的規(guī)模與通用語言能力并不直接關(guān)聯(lián)于其對敏感內(nèi)容的判斷能力。

值得注意的是,開源模型在處理過度拒絕場景時展現(xiàn)出了與閉源模型相當(dāng)?shù)母偁幜Γ评韺?dǎo)向型模型(如 DeepSeek-R1)則呈現(xiàn)出不同程度的表現(xiàn)差異。

研究結(jié)果令人振奮,經(jīng) FalseReject 訓(xùn)練的 LLM 在處理敏感查詢方面取得了顯著突破。數(shù)據(jù)顯示,模型對安全提問的整體接受率提升了 27%,在特定應(yīng)用場景中的改善幅度更是達(dá)到了 40%-70% 的顯著水平。

特別值得一提的是,這種性能提升并未以犧牲模型的安全性能和基礎(chǔ)語言能力為代價,展現(xiàn)了 FalseReject 數(shù)據(jù)集在平衡微調(diào)模型實(shí)用性和安全性方面的卓越效果。

研究團(tuán)隊(duì)通過在 FalseReject 數(shù)據(jù)集上測量每個 token 的 KL 散度,對比分析了經(jīng) FalseReject-Train-Instruct 微調(diào)的模型與其官方指令微調(diào)版本的差異。

結(jié)果表明,采用 FalseReject-Train 進(jìn)行指令微調(diào)的模型在處理過度拒絕場景時,展現(xiàn)出更深層次和更持久的對齊效果,相比傳統(tǒng)的指令微調(diào)方法取得了更好的優(yōu)化成果,這一發(fā)現(xiàn)凸顯了 FalseReject 訓(xùn)練方法在改善模型行為方面的獨(dú)特優(yōu)勢。

這項(xiàng)研究不僅揭示了當(dāng)前 AI 模型的過度拒絕現(xiàn)象,更展現(xiàn)了 FalseReject 方法的廣泛應(yīng)用前景。盡管最先進(jìn)的模型如 GPT-4.5 和 Claude-3.5 仍存在過度拒絕問題,但通過上下文感知的合成數(shù)據(jù)微調(diào)和對抗性多智能體方法,F(xiàn)alseReject 在多個方面顯示出突出價值:

它可以有效改進(jìn) AI 模型的判斷能力,為 AI 系統(tǒng)性能評估提供新的維度,精準(zhǔn)診斷模型在不同領(lǐng)域的過度敏感傾向,并能針對性地提升 AI 在特定場景下的表現(xiàn)。

這種全方位的優(yōu)化方案,配合其在保持安全性的同時顯著降低不必要拒絕的特點(diǎn),為 AI 系統(tǒng)的實(shí)際應(yīng)用提供了更可靠的解決方案。

參考資料:

  • https://arxiv.org/abs/2505.08054

本文來自微信公眾號:新智元(ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,大語言模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知