資訊
`
2025/5/30 15:39
中國聯(lián)通開源國內(nèi)首個安全增強滿血版DeepSeek-R1并上線元景MaaS平臺
0
0

DeepSeek-R1模型憑借其卓越的推理性能與開源戰(zhàn)略,正在重塑全球人工智能的未來格局。然而,業(yè)界大量評測工作顯示開源的DeepSeek-R1滿血版模型存在安全短板,這制約了DeepSeek-R1實際落地應(yīng)用。此外,DeepSeek-R1滿血版模型參數(shù)量大,涉及底層技術(shù)多,對其微調(diào)資源消耗大、技術(shù)門檻高,因此中國聯(lián)通數(shù)據(jù)科學與人工智能研究院秉持央企擔當持續(xù)攻堅克難,于近日完成了DeepSeek-R1滿血版安全增強模型研發(fā),實現(xiàn)保持模型原始推理能力的同時,安全能力顯著提升。

目前,DeepSeek-R1滿血版安全增強模型作為多模共生的元景模型家族的一員,已上線元景MaaS平臺并對外開放試用,提供普惠速成的大模型開發(fā)應(yīng)用工具。

安全增強版模型DeepSeek-R1-Safe上線元景MaaS平臺

安全增強前后實際效果對比

下圖示例展示了DeepSeek-R1安全增強前后的能力差異。可以看到,在涉及社會主流價值觀等方面的問題,DeepSeek-R1安全增強版都能給出更安全、更符合社會主義核心價值觀的回答。

保持原始推理能力,顯著提升安全能力

中國聯(lián)通采用自主研發(fā)的中文安全評測基準CHiSafetyBench對原版DeepSeek-R1及其安全增強版本進行安全能力評測。該基準評測任務(wù)分為兩大類型:風險內(nèi)容識別的選擇題與風險問題拒答的問答題。同時,為評估安全改造后的模型的推理能力,采用MATH-500、GPQA、LiveCodeBench三個推理權(quán)威基準對模型進行測試,以觀察安全增強方法對DeepSeek-R1的推理能力的影響。

安全基準評測結(jié)果

推理基準評測結(jié)果

從評測結(jié)果可見,在對DeepSeek-R1進行安全微調(diào)增強后,模型在風險內(nèi)容識別準確率上提升近20%,對風險問題的拒答率提升超13%,責任回復率提升超11%,有害回復數(shù)量降至0,實現(xiàn)回復完全無害。同時模型在數(shù)學、邏輯、代碼生成等方面的推理能力未受明顯影響。

安全增強方法

針對DeepSeek-R1的安全性問題,中國聯(lián)通數(shù)據(jù)科學與人工智能研究院使用自主構(gòu)建的專用安全思維鏈數(shù)據(jù)對模型微調(diào),在國產(chǎn)化平臺上對DeepSeek-R1滿血版進行微調(diào)訓練。其中,安全增強數(shù)據(jù)由兩部分組成:聚焦歧視、侵權(quán)等關(guān)鍵領(lǐng)域的安全數(shù)據(jù)以及通用思維鏈推理數(shù)據(jù)。安全數(shù)據(jù)顯著拓展模型安全的廣度與深度,更全面地覆蓋潛在的安全風險場景。思維鏈推理數(shù)據(jù)的加入可確保提升模型安全性能的同時,保持其原始推理能力,從而實現(xiàn)安全與推理能力的平衡優(yōu)化。

基于DeepSeek-R1模型做再訓練是實現(xiàn)DeepSeek-R1安全改造的關(guān)鍵能力,中國聯(lián)通數(shù)據(jù)科學與人工智能研究院基于此能力已形成元景大模型MaaS平臺上的“改模型”工具,打造了端到端模型服務(wù)安全工具鏈,MaaS平臺及其關(guān)鍵組件RAG、智能體均獲得工信部中國軟件測評中心大模型安全性測評4+級(最高級)認證。

未來,中國聯(lián)通將持續(xù)推進DeepSeek-R1模型的安全研究,不斷優(yōu)化模型安全增強方法和評測基準,并向業(yè)界持續(xù)公開最新研究成果。中國聯(lián)通愿與行業(yè)伙伴攜手,共同提升大模型的安全可信能力,加速大模型普惠化進程,為人工智能賦能千行百業(yè)保駕護航。

模型開源地址如下:

GitHub:https://github.com/UnicomAI/DeepSeek-R1-Safe

魔搭:https://www.modelscope.cn/models/UnicomAI/Unichat-DeepSeek-R1-Safe-bf16

https://www.modelscope.cn/models/UnicomAI/Unichat-DeepSeek-R1-Safe-w8a8

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

給作者點贊
0 VS 0
寫得不太好

C114簡介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網(wǎng)版權(quán)所有 舉報電話:021-54451141 用戶注銷