C114通信網(wǎng)  |  通信人家園

人工智能
2024/9/25 13:05

OpenAI o1 AI模型PlanBench規(guī)劃能力實(shí)測(cè):準(zhǔn)確率97.8%,遠(yuǎn)超LLaMA 3.1 405B創(chuàng)造的62.6%紀(jì)錄

IT之家  故淵

來(lái)自亞利桑那州立大學(xué)的科研團(tuán)隊(duì)利用 PlanBench 基準(zhǔn),測(cè)試了 OpenAI o1 模型的規(guī)劃能力。研究結(jié)果表明 o1 模型取得了長(zhǎng)足的進(jìn)步,但仍然存在很大的局限性。

PlanBench 基準(zhǔn)簡(jiǎn)介

PlanBench 開發(fā)于 2022 年,用于評(píng)估人工智能系統(tǒng)的規(guī)劃能力,包括 600 個(gè)來(lái)自 Blocksworld 領(lǐng)域的任務(wù),其中積木必須按照特定順序堆疊。

OpenAI o1 模型成績(jī)

在 Blocksworld 任務(wù)中,OpenAI 的 o1 模型準(zhǔn)確率達(dá)到 97.8%,大大超過了之前的最佳語(yǔ)言模型 LLaMA 3.1 405B(準(zhǔn)確率為 62.6%)。

在更具挑戰(zhàn)性的“Mystery Blocksworld”加密版本中,傳統(tǒng)模型幾乎全部失敗,而 OpenAI 的 o1 模型準(zhǔn)確率達(dá)到 52.8%。IT之家附上報(bào)告圖片如下:

研究人員還測(cè)試了一種新的隨機(jī)變體,以排除 o1 的性能可能源于其訓(xùn)練集中的基準(zhǔn)數(shù)據(jù)。在這次測(cè)試中,O1 的準(zhǔn)確率降至 37.3%,但仍遠(yuǎn)遠(yuǎn)超過了得分接近零的其它模型。

規(guī)劃步驟越多,性能下降越明顯

隨著任務(wù)越來(lái)越復(fù)雜,o1 的表現(xiàn)也急劇下降。在需要 20 到 40 個(gè)規(guī)劃步驟的問題上,o1 在較簡(jiǎn)單測(cè)試中的準(zhǔn)確率從 97.8% 下降到只有 23.63%。

該模型在識(shí)別無(wú)法解決的任務(wù)方面也很吃力,只有 27% 的時(shí)間能夠正確識(shí)別。在 54% 的情況下,它錯(cuò)誤地生成了完整但不可能完成的計(jì)劃。

“Quantum improvement”,但并非突破性

雖然 o1 在基準(zhǔn)性能上實(shí)現(xiàn)了“量子改進(jìn)”(Quantum improvement),但它并不能保證解決方案的正確性。如快速向下算法等經(jīng)典的規(guī)劃算法,可以在更短的計(jì)算時(shí)間內(nèi)實(shí)現(xiàn)完美的準(zhǔn)確性。

研究還強(qiáng)調(diào)了 o1 的高資源消耗,運(yùn)行這些測(cè)試需要花費(fèi)近 1900 美元,而經(jīng)典算法在標(biāo)準(zhǔn)計(jì)算機(jī)上運(yùn)行幾乎不需要任何成本。

研究人員強(qiáng)調(diào),對(duì)人工智能系統(tǒng)進(jìn)行公平比較必須考慮準(zhǔn)確性、效率、成本和可靠性。他們的研究結(jié)果表明,雖然像 o1 這樣的人工智能模型在復(fù)雜推理任務(wù)方面取得了進(jìn)步,但這些能力還不夠強(qiáng)大。

  由媒體 The Decoder 使用 Midjourney 生成

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141