C114通信網(wǎng)  |  通信人家園

人工智能
2024/11/28 09:41

阿里通義千問QwQ登場(chǎng):開源AI推理新王,MATH測(cè)試超OpenAI o1模型

IT之家  故淵

阿里通義千問今天(11 月 28 日)發(fā)布《QwQ: 思忖未知之界》博文,推出了 QwQ-32B-Preview 實(shí)驗(yàn)性研究模型,在數(shù)學(xué)和編程領(lǐng)域,尤其在需要深度推理的復(fù)雜問題上,具備卓越的 AI 推理能力。

它是少數(shù)能與 OpenAI 的 o1 匹敵的模型之一,并且是第一個(gè)能以寬松許可證下載的模型。QwQ-32B-Preview 在 Apache 2.0 許可證下“公開”可用,這意味著它可以用于商業(yè)應(yīng)用。

QwQ 愿景

阿里通義千問團(tuán)隊(duì)表示“思考、質(zhì)疑、理解,是人類探索未知的永恒追求”,而 QwQ 猶如一位懷抱無盡好奇的學(xué)徒,以思考和疑問照亮前路。

模型局限性

阿里通義千問團(tuán)隊(duì)首先表明 QwQ 模型具備局限性,仍在學(xué)習(xí)如何行走于理性之路,它的思緒偶爾飄散,答案或許未盡完善,智慧仍在積淀。

附上原文中對(duì)該模型的局限性介紹如下:

語言切換問題:模型可能在回答中混合使用不同語言,影響表達(dá)的連貫性。

推理循環(huán):在處理復(fù)雜邏輯問題時(shí),模型偶爾會(huì)陷入遞歸推理模式,在相似思路中循環(huán)。這種行為雖然反映了模型試圖全面分析的努力,但可能導(dǎo)致冗長(zhǎng)而不夠聚焦的回答。

安全性考慮:盡管模型已具備基礎(chǔ)安全管控,但仍需要進(jìn)一步增強(qiáng)。它可能產(chǎn)生不恰當(dāng)或存在偏見的回答,且與其他大型語言模型一樣,可能受到對(duì)抗攻擊的影響。我們強(qiáng)烈建議用戶在生產(chǎn)環(huán)境中謹(jǐn)慎使用,并采取適當(dāng)?shù)陌踩雷o(hù)措施。

能力差異:QwQ-32B-Preview 在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)出色,但在其他領(lǐng)域仍有提升空間。模型性能會(huì)隨任務(wù)的復(fù)雜度和專業(yè)程度而波動(dòng)。我們正通過持續(xù)優(yōu)化,努力提升模型的綜合能力。

模型表現(xiàn)

QwQ-32B-Preview 包含 325 億個(gè)參數(shù),能夠處理最長(zhǎng) 32000 個(gè) tokens 的提示詞;在 AIME 和 MATH 基準(zhǔn)測(cè)試中,它的表現(xiàn)優(yōu)于 OpenAI 的兩個(gè)推理模型 o1-preview 和 o1-mini。

GPQA

該基準(zhǔn)是一個(gè)通過小學(xué)級(jí)別問題評(píng)估高階科學(xué)解題能力的評(píng)測(cè)集,旨在考察科學(xué)問題解決能力。QwQ-32B-Preview 評(píng)分為 65.2%,展示了研究生水平的科學(xué)推理能力。

AIME

該基準(zhǔn)涵蓋算術(shù)、代數(shù)、計(jì)數(shù)、幾何、數(shù)論、概率等中學(xué)數(shù)學(xué)主題的綜合評(píng)測(cè),測(cè)試數(shù)學(xué)問題解決能力。QwQ-32B-Preview 評(píng)分為 50.0%,證明了強(qiáng)大的數(shù)學(xué)問題解決技能。

MATH-500

該基準(zhǔn)包含 500 個(gè)測(cè)試樣本的 MATH 評(píng)測(cè)集,全面考察數(shù)學(xué)解題能力。QwQ-32B-Preview 成績(jī)?yōu)?90.6%,體現(xiàn)了在各類數(shù)學(xué)主題上的全面理解。

LiveCodeBench

該基準(zhǔn)評(píng)估真實(shí)編程場(chǎng)景中代碼生成和問題解決能力的高難度評(píng)測(cè)集。QwQ-32B-Preview 成績(jī)?yōu)?50.0%,驗(yàn)證了在實(shí)際編程場(chǎng)景中的出色表現(xiàn)。

 

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141