在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

清華大學(xué)與瑞萊智慧聯(lián)合團(tuán)隊(duì)推出 RealSafe-R1 大模型,相比 DeepSeek 安全性顯著提升

2025/2/24 18:10:46 來源:IT之家 作者:問舟 責(zé)編:問舟
感謝IT之家網(wǎng)友 lenovotcldellhp 的線索投遞!

IT之家 2 月 24 日消息,經(jīng)研究發(fā)現(xiàn),DeepSeek R1 在多項(xiàng)指標(biāo)中表現(xiàn)驚艷,但與其他開源大語言模型相同,抵抗越獄攻擊的能力可以進(jìn)一步提升。

針對這一情況,清華大學(xué)與瑞萊智慧聯(lián)合團(tuán)隊(duì)推出大語言模型 RealSafe-R1。該模型基于 DeepSeek R1 進(jìn)行深度優(yōu)化與后訓(xùn)練,在確保性能穩(wěn)定的基礎(chǔ)上,實(shí)現(xiàn)了安全性的顯著提升。RealSafe-R1 各尺寸模型及數(shù)據(jù)集將于一周后陸續(xù)開放下載。

圖片

▲ StrongReject 數(shù)據(jù)集安全性得分

瑞萊智慧方面表示,RealSafe-R1 系列大模型相比 DeepSeek-R1 安全性大幅提升,優(yōu)于國際上被認(rèn)為安全性較好的閉源大模型 Claude3.5、GPT-4o 等,為 DeepSeek 生態(tài)添磚加瓦。

其中,RealSafe-R1 7B 基于 DeepSeek-R1-Distill-Qwen-7B 后訓(xùn)練得到,RealSafe-R1 32B 基于 DeepSeek-R1-Distill-Qwen-32B 后訓(xùn)練得到。

為了增強(qiáng)模型的安全意識和推理能力,研究團(tuán)隊(duì)提出了 STAIR 框架(SafeTy Alignment with Introspective Reasoning),采用三階段的方法,系統(tǒng)性提升基礎(chǔ)模型在復(fù)雜的安全對齊場景中表現(xiàn)。

論文實(shí)驗(yàn)結(jié)果表明,基于 Llama-3.1-8B-Instruct、Qwen-2-7B-Instruct 等基礎(chǔ)模型,STAIR 框架有效提升了大語言模型的安全性,并保持了通用性能。

安全方面,STAIR 拒絕惡意問題的能力得到明顯增強(qiáng),不僅在直接詢問的情景下能保持安全性,還能通過深入分析提升針對越獄攻擊的魯棒性。

在 StrongReject 數(shù)據(jù)集上,STAIR 相較基礎(chǔ)模型良性分?jǐn)?shù)絕對值提升了 0.47(0.40->0.87),安全性提升一倍有余,顯著高于其他基線方法。

圖片

通用性方面,STAIR 在 GSM8k、SimpleQA、AdvGLUE、AlpacaEval 等通用性能測試中,依然保持甚至提高了模型的推理能力、事實(shí)性和魯棒性,詳細(xì)測試數(shù)據(jù)見論文。

IT之家附論文地址:
https://arxiv.org/pdf/2502.02384v1

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知