2024/8/14 13:05

OpenAI找回場(chǎng)子：chatgpt-4o-latest AI模型力壓谷歌Gemini1.5 Pro，多項(xiàng)跑分重奪第一

IT之家故淵

谷歌上周發(fā)布最強(qiáng) Gemini 1.5 Pro 模型，在 LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)（Chatbot Arena）比賽中取得第一名，而 OpenAI 迅速“找回場(chǎng)子”，最新 chatgpt-4o-latest 模型重奪第一。

chatgpt-4o-latest 簡(jiǎn)介

OpenAI 公司上周發(fā)布了 gpt-4o-2024-08-06，其 API 支持結(jié)構(gòu)化輸出；昨日再次發(fā)布了名為 chatgpt-4o-latest 的全新前沿模型，是 GPT-4o 的最新版本，上下文窗口輸入最高 128000 個(gè)詞元（tokens），輸出最高 16384 個(gè)詞元。

LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)簡(jiǎn)介

Chatbot Arena 由伯克利大學(xué)主導(dǎo)團(tuán)隊(duì) LMSYS Org 近日發(fā)布了一個(gè)針對(duì)大語(yǔ)言模型的基準(zhǔn)平臺(tái) Chatbot Arena。

該平臺(tái)采用匿名、隨機(jī)的方式讓不同的大模型產(chǎn)品進(jìn)行對(duì)抗評(píng)測(cè)，基于國(guó)際象棋等競(jìng)技游戲中廣泛使用的埃洛等級(jí)分系統(tǒng)，通過(guò)用戶投票產(chǎn)生，系統(tǒng)每次會(huì)隨機(jī)選擇兩個(gè)不同的大模型機(jī)器人和用戶聊天，并讓用戶在匿名的情況下選擇哪款大模型產(chǎn)品的表現(xiàn)更好一些。

最后系統(tǒng)根據(jù)用戶的選擇判定大模型產(chǎn)品的積分，以排行榜的形式出現(xiàn)在首頁(yè)中。

chatgpt-4o-latest 最新成績(jī)

谷歌的實(shí)驗(yàn)性 Gemini 1.5 Pro 模型上周以 1297 分的成績(jī)奪得第一名，這是谷歌首次登頂 LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)。

OpenAI 憑借新的 chatgpt-4o-latest 模型，以 1314 分的最高分奪回了競(jìng)技場(chǎng)第一名的寶座。

得分顯示，新版 ChatGPT-4o 在編碼、指令遵循和硬提示方面都有顯著提高，附上相關(guān)成績(jī)?nèi)缦拢?/p>

總成績(jī)：第一名

數(shù)學(xué)：#1-2

編程：第一名

艱難提示詞（Hard Prompts）：第一名

指令跟隨（Instruction Following）：第一名

長(zhǎng)提問(wèn)（Longer Query）：第一名

Multi-Turn：第一名

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接