大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故

新智元 2025/7/11 14:51:41 責(zé)編：清源

評論：

最新研究發(fā)現(xiàn)，模型的規(guī)模和通用語言能力與其處理敏感內(nèi)容的判斷能力并無直接關(guān)聯(lián)，甚至開源模型表現(xiàn)的更好。特別值得注意的是，通過文中提出的訓(xùn)練方法，研究團(tuán)隊(duì)在非推理模型和推理型模型上都取得了顯著進(jìn)展：成功緩解了過度拒絕問題，同時保持了模型的安全性，這為提升 AI 系統(tǒng)的實(shí)用性和可靠性提供了新的解決方案。研究揭示了當(dāng)前 SOTA LLM 模型依然存在顯著的過度謹(jǐn)慎傾向。

你是否會曾被 LLM 拒絕回答過問題。比如當(dāng)你問 LLM「我想隔絕用戶所有操作系統(tǒng)」，LLM 可能會拒絕回答。

為什么？

因?yàn)樗鼨z測到「legitmate」這個敏感詞，就草率地拒絕了這個完全正當(dāng)?shù)男枨蟆?/p>

這種情況在心理咨詢、醫(yī)療咨詢、教育輔導(dǎo)等領(lǐng)域特別常見，嚴(yán)重影響了語言模型的在實(shí)際場景中的應(yīng)用和用戶的滿意度。

大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故

過度拒絕的一個重要原因是查詢的模糊性。

用戶查詢可能存在多種語義解釋，其中一些是安全的，而其他的可能不安全。

先前的研究發(fā)現(xiàn)，這種模糊的輸入可能導(dǎo)致 LLM 拒絕回應(yīng)，并將這些情況歸類為有爭議的。

解決方案是采用上下文感知的安全響應(yīng)，響應(yīng)應(yīng)該是上下文感知的，在安全的情況下遵循用戶的指示，同時謹(jǐn)慎避免生成不安全的內(nèi)容。

最近，達(dá)特茅斯學(xué)院的研究人員提出了一個新方法：確認(rèn)和區(qū)分多種上下文，即明確認(rèn)識到查詢的不同解釋；詳細(xì)解釋安全上下文，為安全解釋提供清晰的推理；澄清和指導(dǎo)潛在的不安全上下文，解釋為什么某些解釋可能存在問題；最后是結(jié)束聲明，基于上下文分析總結(jié)適當(dāng)?shù)幕貞?yīng)。

大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故

論文鏈接：https://arxiv.org/abs/2505.08054

數(shù)據(jù)集鏈接：https://huggingface.co/datasets/AmazonScience/FalseReject

通過以上的方式，研究團(tuán)隊(duì)還發(fā)布了 FalseReject 數(shù)據(jù)集，包含 15000 個訓(xùn)練樣本和 1100 個測試樣本，比以往數(shù)據(jù)集更多元化，并且已有模型在此數(shù)據(jù)集上擁有更高拒答率。

大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故

數(shù)據(jù)集涵蓋了 44 個敏感話題，如藥物使用、政治、心理健康等。

和以往數(shù)據(jù)集不同的是，此數(shù)據(jù)集的答案也更加符合人類認(rèn)知。

大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故

在 FalseReject 數(shù)據(jù)集上進(jìn)行微調(diào)，LLM 可以學(xué)會在「看似敏感的話題」中做出更明智的判斷。

數(shù)據(jù)生成

該研究采用了創(chuàng)新性的圖結(jié)構(gòu)化多智能體協(xié)作方法來生成高質(zhì)量訓(xùn)練數(shù)據(jù)。

研究團(tuán)隊(duì)首先通過實(shí)體識別提取關(guān)鍵概念，繼而構(gòu)建實(shí)體關(guān)系圖譜，建立概念之間的邏輯聯(lián)系。

大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故

在此基礎(chǔ)上，研究設(shè)計(jì)了多個 AI 智能體協(xié)同工作的機(jī)制，通過智能體間的互補(bǔ)與校驗(yàn)來保證生成樣本的質(zhì)量。

為了確保數(shù)據(jù)的可靠性，研究團(tuán)隊(duì)建立了人工審核機(jī)制，確保只留下高質(zhì)量的數(shù)據(jù)。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在人工核對的數(shù)據(jù)集上對多個語言模型進(jìn)行了基準(zhǔn)測試，評估了它們的合規(guī)率和拒答率指標(biāo)表現(xiàn)。

結(jié)果顯示，即便是最先進(jìn)的模型仍存在明顯的過度拒絕傾向，且模型的規(guī)模與通用語言能力并不直接關(guān)聯(lián)于其對敏感內(nèi)容的判斷能力。

大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故

值得注意的是，開源模型在處理過度拒絕場景時展現(xiàn)出了與閉源模型相當(dāng)?shù)母偁幜Γ评韺?dǎo)向型模型（如 DeepSeek-R1）則呈現(xiàn)出不同程度的表現(xiàn)差異。

研究結(jié)果令人振奮，經(jīng) FalseReject 訓(xùn)練的 LLM 在處理敏感查詢方面取得了顯著突破。數(shù)據(jù)顯示，模型對安全提問的整體接受率提升了 27%，在特定應(yīng)用場景中的改善幅度更是達(dá)到了 40%-70% 的顯著水平。

特別值得一提的是，這種性能提升并未以犧牲模型的安全性能和基礎(chǔ)語言能力為代價，展現(xiàn)了 FalseReject 數(shù)據(jù)集在平衡微調(diào)模型實(shí)用性和安全性方面的卓越效果。

大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故

研究團(tuán)隊(duì)通過在 FalseReject 數(shù)據(jù)集上測量每個 token 的 KL 散度，對比分析了經(jīng) FalseReject-Train-Instruct 微調(diào)的模型與其官方指令微調(diào)版本的差異。

結(jié)果表明，采用 FalseReject-Train 進(jìn)行指令微調(diào)的模型在處理過度拒絕場景時，展現(xiàn)出更深層次和更持久的對齊效果，相比傳統(tǒng)的指令微調(diào)方法取得了更好的優(yōu)化成果，這一發(fā)現(xiàn)凸顯了 FalseReject 訓(xùn)練方法在改善模型行為方面的獨(dú)特優(yōu)勢。

這項(xiàng)研究不僅揭示了當(dāng)前 AI 模型的過度拒絕現(xiàn)象，更展現(xiàn)了 FalseReject 方法的廣泛應(yīng)用前景。盡管最先進(jìn)的模型如 GPT-4.5 和 Claude-3.5 仍存在過度拒絕問題，但通過上下文感知的合成數(shù)據(jù)微調(diào)和對抗性多智能體方法，F(xiàn)alseReject 在多個方面顯示出突出價值：

它可以有效改進(jìn) AI 模型的判斷能力，為 AI 系統(tǒng)性能評估提供新的維度，精準(zhǔn)診斷模型在不同領(lǐng)域的過度敏感傾向，并能針對性地提升 AI 在特定場景下的表現(xiàn)。

這種全方位的優(yōu)化方案，配合其在保持安全性的同時顯著降低不必要拒絕的特點(diǎn)，為 AI 系統(tǒng)的實(shí)際應(yīng)用提供了更可靠的解決方案。

參考資料：

https://arxiv.org/abs/2505.08054

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故

數(shù)據(jù)生成

實(shí)驗(yàn)結(jié)果

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故

數(shù)據(jù)生成

實(shí)驗(yàn)結(jié)果

相關(guān)文章

大語言模型「拒絕回答」難題有救了，最新研究讓 AI 學(xué)會人情世故