4月29日上午消息,阿里巴巴開(kāi)源了新一代通義千問(wèn)模型Qwen3(簡(jiǎn)稱千問(wèn)3),參數(shù)量?jī)H為DeepSeek-R1的1/3,宣布成本大幅下降,性能超越R1、OpenAI-o1等領(lǐng)先模型。千問(wèn)3是一個(gè)“混合推理模型”,將“快思考”與“慢思考”集成進(jìn)同一個(gè)模型,極大節(jié)省了算力消耗。

據(jù)了解,千問(wèn)3采用混合專家(MoE)架構(gòu),總參數(shù)量235B,激活僅需22B。千問(wèn)3預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36T tokens,并在后訓(xùn)練階段經(jīng)過(guò)多輪強(qiáng)化學(xué)習(xí),將非思考模式無(wú)縫整合到思考模型中。千問(wèn)3在推理、指令遵循、工具調(diào)用、多語(yǔ)言能力等方面均大幅增強(qiáng)。性能大幅提升的同時(shí),千問(wèn)3的部署成本還大幅下降,僅需4張H20即可部署千問(wèn)3滿血版,顯存占用僅為性能相近模型的三分之一。(文猛)