Cloud&AI
`
2025/6/11 14:59
中國科學(xué)院科學(xué)家首次證實:大語言模型能像人類一樣“理解”事物
0
0

從中國科學(xué)院自動化研究所微信公眾號獲悉,近日該所神經(jīng)計算與腦機交互(NeuBCI)課題組與中國科學(xué)院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心的聯(lián)合團隊結(jié)合行為實驗與神經(jīng)影像分析,首次證實多模態(tài)大語言模型(MLLMs)能夠自發(fā)形成與人類高度相似的物體概念表征系統(tǒng)。這項研究不僅為人工智能認(rèn)知科學(xué)開辟了新路徑,更為構(gòu)建類人認(rèn)知結(jié)構(gòu)的人工智能系統(tǒng)提供了理論框架。相關(guān)研究成果以 Human-like object concept representations emerge naturally in multimodal large language models 為題,發(fā)表于《自然 機器智能》(Nature Machine Intelligence)。

人類能夠?qū)ψ匀唤缰械奈矬w進行概念化,這一認(rèn)知能力長期以來被視為人類智能的核心。當(dāng)我們看到“狗”“汽車”或“蘋果”時,不僅能識別它們的物理特征(尺寸、顏色、形狀等),還能理解其功能、情感價值和文化意義 —— 這種多維度的概念表征構(gòu)成了人類認(rèn)知的基石。

傳統(tǒng)人工智能研究聚焦于物體識別準(zhǔn)確率,卻鮮少探討模型是否真正“理解”物體含義。論文通訊作者何暉光研究員指出:“當(dāng)前 AI 能區(qū)分貓狗圖片,但這種‘識別’與人類‘理解’貓狗的本質(zhì)區(qū)別仍有待揭示。”團隊從認(rèn)知神經(jīng)科學(xué)經(jīng)典理論出發(fā),設(shè)計了一套融合計算建模、行為實驗與腦科學(xué)的創(chuàng)新范式。研究采用認(rèn)知心理學(xué)經(jīng)典的“三選一異類識別任務(wù)”(triplet odd-one-out),要求大模型與人類從物體概念三元組(來自 1854 種日常概念的任意組合)中選出最不相似的選項。通過分析 470 萬次行為判斷數(shù)據(jù),團隊首次構(gòu)建了 AI 大模型的“概念地圖”。

實驗范式示意圖。a,物體概念集及帶有語言描述的圖像示例。b-d,分別針對 LLM、MLLM 和人類的行為實驗范式和概念嵌入空間。

研究人員從海量大模型行為數(shù)據(jù)中提取出 66 個“心智維度”,并為這些維度賦予了語義標(biāo)簽。研究發(fā)現(xiàn),這些維度是高度可解釋的,且與大腦類別選擇區(qū)域(如處理面孔的 FFA、處理場景的 PPA、處理軀體的 EBA)的神經(jīng)活動模式顯著相關(guān)。

研究還對比了多個模型在行為選擇模式上與人類的一致性(Human consistency)。結(jié)果顯示,多模態(tài)大模型(如 Gemini_Pro_Vision、Qwen2_VL)在一致性方面表現(xiàn)更優(yōu)。此外,研究還揭示了人類在做決策時更傾向于結(jié)合視覺特征和語義信息進行判斷,而大模型則傾向于依賴語義標(biāo)簽和抽象概念。本研究表明大語言模型并非“隨機鸚鵡”,其內(nèi)部存在著類似人類對現(xiàn)實世界概念的理解。

免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

給作者點贊
0 VS 0
寫得不太好

C114簡介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網(wǎng)版權(quán)所有 舉報電話:021-54451141 用戶注銷