阿里通義千問(wèn)今日宣布推出全新推理模型 Qwen3-30B-A3B-Thinking-2507。相較于 4 月 29 日開(kāi)源的 Qwen3-30-A3B 模型,新模型在推理能力、通用能力及上下文長(zhǎng)度上有了顯著提升:
新模型在聚焦數(shù)學(xué)能力的 AIME25 評(píng)測(cè)中斬獲 85.0 的高分,在代碼能力測(cè)試 LiveCodeBench v6 中得分 66.0,兩項(xiàng)核心推理能力均超越 Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking);新模型的知識(shí)水平(GPQA、MMLU-Pro)也較上一版本進(jìn)步顯著。
在寫(xiě)作(WritingBench)、Agent 能力(BFCL-v3)、多輪對(duì)話和多語(yǔ)言指令遵循(MultiIF)等通用能力評(píng)測(cè)中,Qwen3-30B-A3B-Thinking-2507 均超越 Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking)。
更長(zhǎng)的上下文理解,原生支持 256K tokens,可擴(kuò)展至 1M tokens。
此外,新模型的思考長(zhǎng)度(thinking length)也增加了,官方推薦在高度復(fù)雜的推理任務(wù)中設(shè)置更長(zhǎng)的思考預(yù)算,以充分發(fā)揮它的潛力。
官方透露,目前 Qwen3-30B-A3B-Thinking-2507 已在魔搭社區(qū)、HuggingFace 上開(kāi)源,其輕量體積可輕松實(shí)現(xiàn)消費(fèi)級(jí)硬件的本地部署;同時(shí),其也在 Qwen Chat 上同步上線了新模型。