清華大學(xué)與瑞萊智慧聯(lián)合團(tuán)隊推出 RealSafe-R1 大模型，相比 DeepSeek 安全性顯著提升

2025/2/24 18:10:46 來源：IT之家作者：問舟責(zé)編：問舟

評論：

感謝IT之家網(wǎng)友 lenovotcldellhp 的線索投遞！

IT之家 2 月 24 日消息，經(jīng)研究發(fā)現(xiàn)，DeepSeek R1 在多項指標(biāo)中表現(xiàn)驚艷，但與其他開源大語言模型相同，抵抗越獄攻擊的能力可以進(jìn)一步提升。

針對這一情況，清華大學(xué)與瑞萊智慧聯(lián)合團(tuán)隊推出大語言模型 RealSafe-R1。該模型基于 DeepSeek R1 進(jìn)行深度優(yōu)化與后訓(xùn)練，在確保性能穩(wěn)定的基礎(chǔ)上，實現(xiàn)了安全性的顯著提升。RealSafe-R1 各尺寸模型及數(shù)據(jù)集將于一周后陸續(xù)開放下載。

▲ StrongReject 數(shù)據(jù)集安全性得分

瑞萊智慧方面表示，RealSafe-R1 系列大模型相比 DeepSeek-R1 安全性大幅提升，優(yōu)于國際上被認(rèn)為安全性較好的閉源大模型 Claude3.5、GPT-4o 等，為 DeepSeek 生態(tài)添磚加瓦。

其中，RealSafe-R1 7B 基于 DeepSeek-R1-Distill-Qwen-7B 后訓(xùn)練得到，RealSafe-R1 32B 基于 DeepSeek-R1-Distill-Qwen-32B 后訓(xùn)練得到。

為了增強(qiáng)模型的安全意識和推理能力，研究團(tuán)隊提出了 STAIR 框架（SafeTy Alignment with Introspective Reasoning），采用三階段的方法，系統(tǒng)性提升基礎(chǔ)模型在復(fù)雜的安全對齊場景中表現(xiàn)。

論文實驗結(jié)果表明，基于 Llama-3.1-8B-Instruct、Qwen-2-7B-Instruct 等基礎(chǔ)模型，STAIR 框架有效提升了大語言模型的安全性，并保持了通用性能。

安全方面，STAIR 拒絕惡意問題的能力得到明顯增強(qiáng)，不僅在直接詢問的情景下能保持安全性，還能通過深入分析提升針對越獄攻擊的魯棒性。

在 StrongReject 數(shù)據(jù)集上，STAIR 相較基礎(chǔ)模型良性分?jǐn)?shù)絕對值提升了 0.47（0.40->0.87），安全性提升一倍有余，顯著高于其他基線方法。

通用性方面，STAIR 在 GSM8k、SimpleQA、AdvGLUE、AlpacaEval 等通用性能測試中，依然保持甚至提高了模型的推理能力、事實性和魯棒性，詳細(xì)測試數(shù)據(jù)見論文。

IT之家附論文地址：
https://arxiv.org/pdf/2502.02384v1

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

清華大學(xué)與瑞萊智慧聯(lián)合團(tuán)隊推出 RealSafe-R1 大模型，相比 DeepSeek 安全性顯著提升

相關(guān)文章