谷歌上周發(fā)布最強(qiáng) Gemini 1.5 Pro 模型,在 LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)(Chatbot Arena)比賽中取得第一名,而 OpenAI 迅速“找回場(chǎng)子”,最新 chatgpt-4o-latest 模型重奪第一。
chatgpt-4o-latest 簡(jiǎn)介
OpenAI 公司上周發(fā)布了 gpt-4o-2024-08-06,其 API 支持結(jié)構(gòu)化輸出;昨日再次發(fā)布了名為 chatgpt-4o-latest 的全新前沿模型,是 GPT-4o 的最新版本,上下文窗口輸入最高 128000 個(gè)詞元(tokens),輸出最高 16384 個(gè)詞元。
LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)簡(jiǎn)介
Chatbot Arena 由伯克利大學(xué)主導(dǎo)團(tuán)隊(duì) LMSYS Org 近日發(fā)布了一個(gè)針對(duì)大語(yǔ)言模型的基準(zhǔn)平臺(tái) Chatbot Arena。
該平臺(tái)采用匿名、隨機(jī)的方式讓不同的大模型產(chǎn)品進(jìn)行對(duì)抗評(píng)測(cè),基于國(guó)際象棋等競(jìng)技游戲中廣泛使用的埃洛等級(jí)分系統(tǒng),通過(guò)用戶投票產(chǎn)生,系統(tǒng)每次會(huì)隨機(jī)選擇兩個(gè)不同的大模型機(jī)器人和用戶聊天,并讓用戶在匿名的情況下選擇哪款大模型產(chǎn)品的表現(xiàn)更好一些。
最后系統(tǒng)根據(jù)用戶的選擇判定大模型產(chǎn)品的積分,以排行榜的形式出現(xiàn)在首頁(yè)中。
chatgpt-4o-latest 最新成績(jī)
谷歌的實(shí)驗(yàn)性 Gemini 1.5 Pro 模型上周以 1297 分的成績(jī)奪得第一名,這是谷歌首次登頂 LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)。
OpenAI 憑借新的 chatgpt-4o-latest 模型,以 1314 分的最高分奪回了競(jìng)技場(chǎng)第一名的寶座。
得分顯示,新版 ChatGPT-4o 在編碼、指令遵循和硬提示方面都有顯著提高,附上相關(guān)成績(jī)?nèi)缦拢?/p>
總成績(jī):第一名
數(shù)學(xué):#1-2
編程:第一名
艱難提示詞(Hard Prompts):第一名
指令跟隨(Instruction Following):第一名
長(zhǎng)提問(wèn)(Longer Query):第一名