2024/11/28 09:41

阿里通義千問QwQ登場(chǎng)：開源AI推理新王，MATH測(cè)試超OpenAI o1模型

IT之家故淵

阿里通義千問今天（11 月 28 日）發(fā)布《QwQ: 思忖未知之界》博文，推出了 QwQ-32B-Preview 實(shí)驗(yàn)性研究模型，在數(shù)學(xué)和編程領(lǐng)域，尤其在需要深度推理的復(fù)雜問題上，具備卓越的 AI 推理能力。

它是少數(shù)能與 OpenAI 的 o1 匹敵的模型之一，并且是第一個(gè)能以寬松許可證下載的模型。QwQ-32B-Preview 在 Apache 2.0 許可證下“公開”可用，這意味著它可以用于商業(yè)應(yīng)用。

QwQ 愿景

阿里通義千問團(tuán)隊(duì)表示“思考、質(zhì)疑、理解，是人類探索未知的永恒追求”，而 QwQ 猶如一位懷抱無盡好奇的學(xué)徒，以思考和疑問照亮前路。

模型局限性

阿里通義千問團(tuán)隊(duì)首先表明 QwQ 模型具備局限性，仍在學(xué)習(xí)如何行走于理性之路，它的思緒偶爾飄散，答案或許未盡完善，智慧仍在積淀。

附上原文中對(duì)該模型的局限性介紹如下：

語言切換問題：模型可能在回答中混合使用不同語言，影響表達(dá)的連貫性。

推理循環(huán)：在處理復(fù)雜邏輯問題時(shí)，模型偶爾會(huì)陷入遞歸推理模式，在相似思路中循環(huán)。這種行為雖然反映了模型試圖全面分析的努力，但可能導(dǎo)致冗長(zhǎng)而不夠聚焦的回答。

安全性考慮：盡管模型已具備基礎(chǔ)安全管控，但仍需要進(jìn)一步增強(qiáng)。它可能產(chǎn)生不恰當(dāng)或存在偏見的回答，且與其他大型語言模型一樣，可能受到對(duì)抗攻擊的影響。我們強(qiáng)烈建議用戶在生產(chǎn)環(huán)境中謹(jǐn)慎使用，并采取適當(dāng)?shù)陌踩雷o(hù)措施。

能力差異：QwQ-32B-Preview 在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)出色，但在其他領(lǐng)域仍有提升空間。模型性能會(huì)隨任務(wù)的復(fù)雜度和專業(yè)程度而波動(dòng)。我們正通過持續(xù)優(yōu)化，努力提升模型的綜合能力。

模型表現(xiàn)

QwQ-32B-Preview 包含 325 億個(gè)參數(shù)，能夠處理最長(zhǎng) 32000 個(gè) tokens 的提示詞；在 AIME 和 MATH 基準(zhǔn)測(cè)試中，它的表現(xiàn)優(yōu)于 OpenAI 的兩個(gè)推理模型 o1-preview 和 o1-mini。

GPQA

該基準(zhǔn)是一個(gè)通過小學(xué)級(jí)別問題評(píng)估高階科學(xué)解題能力的評(píng)測(cè)集，旨在考察科學(xué)問題解決能力。QwQ-32B-Preview 評(píng)分為 65.2%，展示了研究生水平的科學(xué)推理能力。

AIME

該基準(zhǔn)涵蓋算術(shù)、代數(shù)、計(jì)數(shù)、幾何、數(shù)論、概率等中學(xué)數(shù)學(xué)主題的綜合評(píng)測(cè)，測(cè)試數(shù)學(xué)問題解決能力。QwQ-32B-Preview 評(píng)分為 50.0%，證明了強(qiáng)大的數(shù)學(xué)問題解決技能。

MATH-500

該基準(zhǔn)包含 500 個(gè)測(cè)試樣本的 MATH 評(píng)測(cè)集，全面考察數(shù)學(xué)解題能力。QwQ-32B-Preview 成績(jī)?yōu)?90.6%，體現(xiàn)了在各類數(shù)學(xué)主題上的全面理解。

LiveCodeBench

該基準(zhǔn)評(píng)估真實(shí)編程場(chǎng)景中代碼生成和問題解決能力的高難度評(píng)測(cè)集。QwQ-32B-Preview 成績(jī)?yōu)?50.0%，驗(yàn)證了在實(shí)際編程場(chǎng)景中的出色表現(xiàn)。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

測(cè)試

阿里通義千問發(fā)布Qwen2.5-Turbo開源AI模型：支持100萬tokens上下文，處理時(shí)間縮短至68秒
IT之家故淵11-19