2024/12/18 13:50

谷歌發(fā)布 FACTS Grounding 基準(zhǔn)：Gemini、GPT-4o、Claude 當(dāng)評(píng)委，成 AI 大語(yǔ)言模型“幻覺(jué)照妖鏡”

IT之家故淵

谷歌 DeepMind 團(tuán)隊(duì)于 12 月 17 日發(fā)布博文，宣布推出 FACTS Grounding 基準(zhǔn)測(cè)試，評(píng)估大型語(yǔ)言模型（LLMs）根據(jù)給定材料是否準(zhǔn)確作答，并避免“幻覺(jué)”（即捏造信息）的能力，從而提升 LLMs 的事實(shí)準(zhǔn)確性，增強(qiáng)用戶信任度，并拓展其應(yīng)用范圍。

數(shù)據(jù)集

在數(shù)據(jù)集方面，ACTS Grounding 數(shù)據(jù)集包含 1719 個(gè)示例，涵蓋金融、科技、零售、醫(yī)療和法律等多個(gè)領(lǐng)域，每個(gè)示例包含一篇文檔、一條要求 LLM 基于文檔的系統(tǒng)指令和隨附的提示詞。

示例文檔長(zhǎng)度不一，最長(zhǎng)可達(dá) 32000 個(gè) token（約 20000 字）。用戶請(qǐng)求涵蓋摘要、問(wèn)答生成和改寫等任務(wù)，但不包含需要?jiǎng)?chuàng)造力、數(shù)學(xué)或復(fù)雜推理的任務(wù)。IT之家附上演示圖片如下：

數(shù)據(jù)集分為 860 個(gè)“公共”示例和 859 個(gè)“私有”示例，目前已發(fā)布公共數(shù)據(jù)集供評(píng)估使用，私有數(shù)據(jù)集用于排行榜評(píng)分，以防止基準(zhǔn)污染和排行榜作弊。

評(píng)估方案

在評(píng)估方案上，F(xiàn)ACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作為評(píng)委，評(píng)估答案的充分性、事實(shí)準(zhǔn)確性和文檔支持性。

評(píng)估分為兩個(gè)階段：首先評(píng)估響應(yīng)是否符合資格，即是否充分回答了用戶請(qǐng)求；然后評(píng)估響應(yīng)的事實(shí)準(zhǔn)確性，即是否完全基于所提供的文檔，有沒(méi)有出現(xiàn)“幻覺(jué)”，然后基于該模型在所有示例上的平均得分，最終計(jì)算得出。

在 FACTS Grounding Benchmark 中，谷歌的 Gemini 模型在事實(shí)準(zhǔn)確的文本生成方面取得了最高分。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

測(cè)試

谷歌 CEO 皮查伊盛贊 DeepSeek：非常出色，AI 成本下降有利于整個(gè)行業(yè)發(fā)展
IT之家清源2-5
谷歌 AI 原則生變：刪除“不用于武器”的承諾
IT之家遠(yuǎn)洋2-5
AI 業(yè)績(jī)亮眼，谷歌母公司 Alphabet 今年資本支出飆升至 750 億美元
IT之家遠(yuǎn)洋2-5
谷歌母公司總裁：美國(guó)AI難保證對(duì)華領(lǐng)先，有些方面甚至落后
鳳凰網(wǎng)科技蕭雨1-22

谷歌發(fā)布 FACTS Grounding 基準(zhǔn)：Gemini、GPT-4o、Claude 當(dāng)評(píng)委，成 AI 大語(yǔ)言模型“幻覺(jué)照妖鏡”

谷歌發(fā)布 FACTS Grounding 基準(zhǔn)：Gemini、GPT-4o、Claude 當(dāng)評(píng)委，成 AI 大語(yǔ)言模型“幻覺(jué)照妖鏡”