2025/3/24 11:05

Meta 推出強(qiáng)化學(xué)習(xí)新框架 SWEET-RL，讓 AI 更懂人類意圖

IT之家故淵

科技媒體 marktechpost 昨日（3 月 23 日）發(fā)布博文，報(bào)道稱 Meta AI 公司攜手加州大學(xué)伯克利分校，合作推出名為 SWEET-RL 的強(qiáng)化學(xué)習(xí)框架，并發(fā)布了 CollaborativeAgentBench（ColBench）基準(zhǔn)測試。

這一創(chuàng)新旨在提升大語言模型（LLMs）在多輪人機(jī)協(xié)作任務(wù)中的表現(xiàn)，特別是在后端編程和前端設(shè)計(jì)領(lǐng)域。SWEET-RL 通過逐輪優(yōu)化決策，顯著提高了模型的任務(wù)完成率，并展示了其在開源模型（如 Llama-3.1-8B）與專有模型（如 GPT-4o）競爭中的潛力。

項(xiàng)目背景

IT之家援引博文介紹，大語言模型正逐漸演變?yōu)槟軌驁?zhí)行復(fù)雜任務(wù)的自主智能體，但在多輪決策任務(wù)中仍面臨挑戰(zhàn)。

傳統(tǒng)訓(xùn)練方法依賴于單輪反饋或模仿高概率行為，無法有效處理長期依賴和累積目標(biāo)。這導(dǎo)致模型在協(xié)作場景中表現(xiàn)不佳，特別是在理解人類意圖和多步驟推理方面。

SWEET-RL 的創(chuàng)新之處

SWEET-RL 采用非對(duì)稱的“演員-評(píng)論家”結(jié)構(gòu)，評(píng)論家在訓(xùn)練過程中可以訪問額外信息（如正確答案），從而更精確地評(píng)估演員的決策。

該框架直接建模逐輪的優(yōu)勢函數(shù)，簡化了信用分配過程，并與 LLMs 的預(yù)訓(xùn)練架構(gòu)更好地對(duì)齊。實(shí)驗(yàn)結(jié)果顯示，SWEET-RL 在后端編程任務(wù)中通過率提升至 48.0%，前端設(shè)計(jì)任務(wù)的余弦相似度達(dá)到 76.9%，顯著優(yōu)于其他多輪強(qiáng)化學(xué)習(xí)方法。

ColBench 基準(zhǔn)測試

ColBench 包含超過 10000 個(gè)訓(xùn)練任務(wù)和 1000 個(gè)測試案例，模擬真實(shí)的人機(jī)協(xié)作場景。任務(wù)設(shè)計(jì)涵蓋后端編程（如 Python 函數(shù)編寫）和前端設(shè)計(jì)（如 HTML 代碼生成），并限制每輪交互最多 10 次。

這一基準(zhǔn)測試通過單元測試通過率（代碼）和余弦相似度（設(shè)計(jì)）評(píng)估模型表現(xiàn)，為多輪任務(wù)提供了可靠的評(píng)估標(biāo)準(zhǔn)。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

測試

燃?jí)艟G茵，智聯(lián)未來，大連移動(dòng)攜手華為打造5G-A×AI數(shù)字球場
C114通信網(wǎng) 4-3
“津智5G-A”——天津移動(dòng)攜手華為，全國首創(chuàng)城區(qū)無線AI全覆蓋，引領(lǐng)5G-A智能化新紀(jì)元
C114通信網(wǎng) 4-3
中國工程院院士張平：DeepSeek給通信界帶來什么啟示？
C114通信網(wǎng) 4-3
Anthropic 推動(dòng)“AI 進(jìn)校園”計(jì)劃，將為高校師生提供定制版 Claude
IT之家清源4-3