C114通信網  |  通信人家園

人工智能
2024/9/11 13:29

Reflection 70B AI模型“塌房”:第三方基準測試結果不佳,不如LLaMA-3.1-70B

IT之家  故淵

科技媒體 The Decoder 昨日(9 月 10 日)報道,對比平臺 Artificial Analysis 相關數據表明,Reflection 70B AI 模型在基準測試中的表現,實際上不及 Meta 的 LLaMA-3.1-70B

針對 AI 模型基準測試結果不佳,Reflection 公司首席執(zhí)行官馬特 舒默(Matt Shumer)表示,上傳模型權重至 Hugging Face 時遇到問題,所使用的權重是多個不同模型的混合體,而他們內部托管的模型則顯示出更佳的結果。

舒默隨后向部分用戶提供了獨家訪問內部模型的權限,Artificial Analysis 重做了測試,并報告結果優(yōu)于公開 API,只是他們無法確認所訪問的具體是哪個模型。

Reflection 在 Hugging Face 已上傳了新的模型,不過這些模型在測試中的表現明顯遜于之前通過私有 API 提供的模型。

查詢公開資料,有用戶還發(fā)現了證據,表明 Reflection API 有時會調用 Anthropic Claude 3.5 Sonnet 以及 OpenAI。

舒默旗下公司 OthersideAI 此前已宣布計劃于本周發(fā)布一款基于 LLaMA 3.1 450B 的更大、更強大的模型。

舒默對這一即將發(fā)布的版本做出了大膽聲明,稱其不僅將成為最佳的開源模型,還將是有史以來最優(yōu)秀的語言模型。

官方回應:

 

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯系我們 | 網站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網 版權所有 舉報電話:021-54451141