2025/3/11 08:36

OpenAI 發(fā)布 CoT 思維鏈研究成果，監(jiān)控阻止大模型惡意行為

IT之家問(wèn)舟

OpenAI 今日公布了其最新研究，試圖用 CoT（思維鏈）監(jiān)控的方式監(jiān)控推理模型的“想法”，從而阻止 AI 大模型胡說(shuō)八道、隱藏真實(shí)意圖等行為，同時(shí)這也是監(jiān)督超級(jí)模型的有效工具之一。

IT之家注：AI 偶爾會(huì)胡說(shuō)八道，我們一般稱其為 AI 幻覺(jué)。除此之外，AI 還會(huì)偷懶或故意耍壞，例如在問(wèn)題太難時(shí)欺騙用戶或干脆放棄。

OpenAI 使用了最新發(fā)布的前沿模型 o3-mini 作為被監(jiān)控對(duì)象，并以較弱的 GPT-4o 模型作為監(jiān)控器。測(cè)試環(huán)境為編碼任務(wù)，要求 AI 在代碼庫(kù)中實(shí)現(xiàn)功能以通過(guò)單元測(cè)試。

結(jié)果顯示，CoT 監(jiān)控器在檢測(cè)系統(tǒng)性“獎(jiǎng)勵(lì)黑客”行為時(shí)表現(xiàn)卓越，召回率高達(dá) 95%，遠(yuǎn)超僅監(jiān)控行為的 60%。

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

測(cè)試

在 AI 時(shí)代如何證明你是人類，OpenAI 奧爾特曼推聊天應(yīng)用 World 嘗試虹膜識(shí)別
IT之家汪淼3-10
微軟 Copilot 用戶現(xiàn)可免費(fèi)無(wú)限制訪問(wèn) OpenAI o3-mini-high 深度思考模型
IT之家汪淼3-7
消息稱 OpenAI 將推出月費(fèi) 2 萬(wàn)美元的“博士級(jí)”AI 智能體
IT之家問(wèn)舟3-6
OpenAI 宣布 GPT-4.5 正式面向所有 ChatGPT Plus 用戶開(kāi)放
IT之家問(wèn)舟3-6