C114通信網(wǎng)  |  通信人家園

人工智能
2024/8/14 13:05

OpenAI找回場(chǎng)子:chatgpt-4o-latest AI模型力壓谷歌Gemini1.5 Pro,多項(xiàng)跑分重奪第一

IT之家  故淵

谷歌上周發(fā)布最強(qiáng) Gemini 1.5 Pro 模型,在 LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)(Chatbot Arena)比賽中取得第一名,而 OpenAI 迅速“找回場(chǎng)子”,最新 chatgpt-4o-latest 模型重奪第一。

chatgpt-4o-latest 簡(jiǎn)介

OpenAI 公司上周發(fā)布了 gpt-4o-2024-08-06,其 API 支持結(jié)構(gòu)化輸出;昨日再次發(fā)布了名為 chatgpt-4o-latest 的全新前沿模型,是 GPT-4o 的最新版本,上下文窗口輸入最高 128000 個(gè)詞元(tokens),輸出最高 16384 個(gè)詞元。

LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)簡(jiǎn)介

Chatbot Arena 由伯克利大學(xué)主導(dǎo)團(tuán)隊(duì) LMSYS Org 近日發(fā)布了一個(gè)針對(duì)大語(yǔ)言模型的基準(zhǔn)平臺(tái) Chatbot Arena。

該平臺(tái)采用匿名、隨機(jī)的方式讓不同的大模型產(chǎn)品進(jìn)行對(duì)抗評(píng)測(cè),基于國(guó)際象棋等競(jìng)技游戲中廣泛使用的埃洛等級(jí)分系統(tǒng),通過(guò)用戶投票產(chǎn)生,系統(tǒng)每次會(huì)隨機(jī)選擇兩個(gè)不同的大模型機(jī)器人和用戶聊天,并讓用戶在匿名的情況下選擇哪款大模型產(chǎn)品的表現(xiàn)更好一些。

最后系統(tǒng)根據(jù)用戶的選擇判定大模型產(chǎn)品的積分,以排行榜的形式出現(xiàn)在首頁(yè)中。

chatgpt-4o-latest 最新成績(jī)

谷歌的實(shí)驗(yàn)性 Gemini 1.5 Pro 模型上周以 1297 分的成績(jī)奪得第一名,這是谷歌首次登頂 LMSYS 的聊天機(jī)器人競(jìng)技場(chǎng)。

OpenAI 憑借新的 chatgpt-4o-latest 模型,以 1314 分的最高分奪回了競(jìng)技場(chǎng)第一名的寶座。

得分顯示,新版 ChatGPT-4o 在編碼、指令遵循和硬提示方面都有顯著提高,附上相關(guān)成績(jī)?nèi)缦拢?/p>

總成績(jī):第一名

數(shù)學(xué):#1-2

編程:第一名

艱難提示詞(Hard Prompts):第一名

指令跟隨(Instruction Following):第一名

長(zhǎng)提問(wèn)(Longer Query):第一名

Multi-Turn:第一名

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141