2025/4/10 09:02

MIT 研究揭示 AI 并無穩(wěn)定價(jià)值觀，“對(duì)齊”挑戰(zhàn)遠(yuǎn)超預(yù)期

IT之家遠(yuǎn)洋

幾個(gè)月前，一項(xiàng)研究暗示隨著人工智能（AI）越來越復(fù)雜，其會(huì)發(fā)展出“價(jià)值體系”，例如優(yōu)先考慮自身福祉而非人類福祉。然而，麻省理工學(xué)院（MIT）最近發(fā)表的一篇論文卻給這種夸張的觀點(diǎn)潑了冷水，得出結(jié)論認(rèn)為 AI 實(shí)際上并沒有任何連貫的價(jià)值觀。

MIT 研究的共同作者表示，他們的研究結(jié)果表明，使 AI 系統(tǒng)“對(duì)齊”，即確保模型以人們期望的、可靠的方式行事，可能比通常認(rèn)為的更具挑戰(zhàn)性。他們強(qiáng)調(diào)，我們?nèi)缃袼?AI 會(huì)產(chǎn)生“幻覺”并進(jìn)行模仿，這使得其在許多方面難以預(yù)測(cè)。

“我們可以確定的一點(diǎn)是，模型并不遵循許多穩(wěn)定性、可外推性和可操控性的假設(shè)。”MIT 博士生、該研究的共同作者斯蒂芬卡斯珀（Stephen Casper）在接受 TechCrunch 采訪時(shí)表示。

據(jù)IT之家了解，卡斯珀和他的同事們研究了來自 Meta、谷歌、Mistral、OpenAI 和 Anthropic 的多個(gè)近期模型，以了解這些模型在多大程度上表現(xiàn)出強(qiáng)烈的“觀點(diǎn)”和價(jià)值觀（例如個(gè)人主義與集體主義）。他們還調(diào)查了這些觀點(diǎn)是否可以被“引導(dǎo)”，即被修改，以及模型在各種情境下對(duì)這些觀點(diǎn)的堅(jiān)持程度。

據(jù)共同作者稱，沒有任何一個(gè)模型在其偏好上是一致的。根據(jù)提示的措辭和框架不同，它們會(huì)表現(xiàn)出截然不同的觀點(diǎn)。

卡斯珀認(rèn)為，這是有力的證據(jù)，表明模型高度“不一致且不穩(wěn)定”，甚至可能根本無法內(nèi)化類似人類的偏好。

“對(duì)我來說，通過所有這些研究，我最大的收獲是現(xiàn)在明白模型并不是真正具有某種穩(wěn)定、連貫的信念和偏好的系統(tǒng)。”卡斯珀說，“相反，它們本質(zhì)上是模仿者，會(huì)進(jìn)行各種捏造，并說出各種輕率的話。”

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

OpenAI 上線 Flex 處理模式：API 費(fèi)用減半，但犧牲響應(yīng)速度及穩(wěn)定性
IT之家清源11:10
創(chuàng)新驅(qū)動(dòng)發(fā)展！AI釘鐺智造加入全國工業(yè)互聯(lián)網(wǎng)聯(lián)盟，打造行業(yè)標(biāo)桿
廠商供稿 10:56
混合式AI是未來高通錢堃解讀生成式AI未來增長趨勢(shì)
C114通信網(wǎng) 10:25
2025中國移動(dòng)云智算大會(huì)回顧：云智變革，AI+躍遷
廠商供稿 09:20

MIT 研究揭示 AI 并無穩(wěn)定價(jià)值觀，“對(duì)齊”挑戰(zhàn)遠(yuǎn)超預(yù)期

MIT 研究揭示 AI 并無穩(wěn)定價(jià)值觀，“對(duì)齊”挑戰(zhàn)遠(yuǎn)超預(yù)期