Cloud&AI
`
2025/7/24 14:42
蘋果攜手劍橋大學設計最佳 AI 評審框架,突破復雜任務評審局限
0
0

科技媒體 NeoWin 今天(7 月 24 日)發(fā)布博文,報道稱蘋果公司攜手劍橋大學,提出一種新的 AI 評估系統(tǒng),通過引入外部驗證工具增強 AI 評審員的能力,以提高評審質量。

在評估大語言模型(LLM)時,研究人員和開發(fā)者越來越多地借助 AI 力量,這種方式也稱為“LLM-as-a-judge”。不過這種方式也存在諸多挑戰(zhàn),在長篇事實核查、高級編碼和數學問題等復雜任務中,評估質量往往會下降。

蘋果攜手劍橋大學發(fā)表了一篇新研究論文,概述了一種新系統(tǒng),通過為 AI 評審員配備外部驗證工具,以提高其評審質量,從而克服人類和 AI 注釋中的局限性。

人類評審員由于時間限制、疲勞以及更傾向于寫作風格而非事實準確性,面臨挑戰(zhàn)和偏見,而 AI 在上述復雜任務上則遇到困難。

研究人員創(chuàng)建的評估代理是具有自主性的,它能夠評估響應以確定是否需要外部工具,并使用正確的工具。每個評估都經過三個主要步驟:初始領域評估、工具使用和最終決策。

事實核查工具使用網絡搜索來驗證響應中的原子事實;代碼執(zhí)行利用 OpenAI 的代碼解釋器運行并驗證代碼的正確性;數學核查工具是代碼執(zhí)行工具的一個專門版本,用于驗證數學和算術運算。

如果發(fā)現沒有工具對判斷有幫助,系統(tǒng)將使用基線 LLM 注釋器,以避免在簡單任務上不必要的處理和潛在的績效回歸。

免責聲明:本文僅代表作者個人觀點,與C114通信網無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

給作者點贊
0 VS 0
寫得不太好

C114簡介     聯系我們     網站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網版權所有 舉報電話:021-54451141 用戶注銷