日本伦理电影123网站,欧美双人组合的白人RAPPER,国产精品亚洲五月天高清

量子大觀

通信人家園

C114通信網

光通信觀察

DVBCN中廣5G

2025/7/24 14:42

蘋果攜手劍橋大學設計最佳 AI 評審框架，突破復雜任務評審局限

IT之家故淵

科技媒體 NeoWin 今天（7 月 24 日）發(fā)布博文，報道稱蘋果公司攜手劍橋大學，提出一種新的 AI 評估系統(tǒng)，通過引入外部驗證工具增強 AI 評審員的能力，以提高評審質量。

在評估大語言模型（LLM）時，研究人員和開發(fā)者越來越多地借助 AI 力量，這種方式也稱為“LLM-as-a-judge”。不過這種方式也存在諸多挑戰(zhàn)，在長篇事實核查、高級編碼和數學問題等復雜任務中，評估質量往往會下降。

蘋果攜手劍橋大學發(fā)表了一篇新研究論文，概述了一種新系統(tǒng)，通過為 AI 評審員配備外部驗證工具，以提高其評審質量，從而克服人類和 AI 注釋中的局限性。

人類評審員由于時間限制、疲勞以及更傾向于寫作風格而非事實準確性，面臨挑戰(zhàn)和偏見，而 AI 在上述復雜任務上則遇到困難。

研究人員創(chuàng)建的評估代理是具有自主性的，它能夠評估響應以確定是否需要外部工具，并使用正確的工具。每個評估都經過三個主要步驟：初始領域評估、工具使用和最終決策。

事實核查工具使用網絡搜索來驗證響應中的原子事實；代碼執(zhí)行利用 OpenAI 的代碼解釋器運行并驗證代碼的正確性；數學核查工具是代碼執(zhí)行工具的一個專門版本，用于驗證數學和算術運算。

如果發(fā)現沒有工具對判斷有幫助，系統(tǒng)將使用基線 LLM 注釋器，以避免在簡單任務上不必要的處理和潛在的績效回歸。

免責聲明：本文僅代表作者個人觀點，與C114通信網無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。

給作者點贊

0 VS 0

寫得不太好

相關鏈接

AI 蘋果網絡 OpenAI

特別策劃