科技媒體 NeoWin 今天(7 月 24 日)發(fā)布博文,報道稱蘋果公司攜手劍橋大學,提出一種新的 AI 評估系統(tǒng),通過引入外部驗證工具增強 AI 評審員的能力,以提高評審質量。
在評估大語言模型(LLM)時,研究人員和開發(fā)者越來越多地借助 AI 力量,這種方式也稱為“LLM-as-a-judge”。不過這種方式也存在諸多挑戰(zhàn),在長篇事實核查、高級編碼和數學問題等復雜任務中,評估質量往往會下降。
蘋果攜手劍橋大學發(fā)表了一篇新研究論文,概述了一種新系統(tǒng),通過為 AI 評審員配備外部驗證工具,以提高其評審質量,從而克服人類和 AI 注釋中的局限性。
人類評審員由于時間限制、疲勞以及更傾向于寫作風格而非事實準確性,面臨挑戰(zhàn)和偏見,而 AI 在上述復雜任務上則遇到困難。
研究人員創(chuàng)建的評估代理是具有自主性的,它能夠評估響應以確定是否需要外部工具,并使用正確的工具。每個評估都經過三個主要步驟:初始領域評估、工具使用和最終決策。
事實核查工具使用網絡搜索來驗證響應中的原子事實;代碼執(zhí)行利用 OpenAI 的代碼解釋器運行并驗證代碼的正確性;數學核查工具是代碼執(zhí)行工具的一個專門版本,用于驗證數學和算術運算。
如果發(fā)現沒有工具對判斷有幫助,系統(tǒng)將使用基線 LLM 注釋器,以避免在簡單任務上不必要的處理和潛在的績效回歸。