1、混合推理架構(gòu)
Qwen3系列初次將“快思考”(非推理模式)與“慢思考”(推理模式)集成至單一模型,通過控制參數(shù)enable_thinking實(shí)現(xiàn)模式切換。用戶可通過文本后綴/no_think或/think動態(tài)調(diào)整響應(yīng)策略,例如在簡單問答中優(yōu)先速度,在復(fù)雜代碼生成或數(shù)學(xué)推理中啟用深度思考。這種設(shè)計(jì)使Qwen3-235B-A22B在基準(zhǔn)測試中與DeepSeek-R1、Grok-3等模型表現(xiàn)相當(dāng),同時(shí)顯著降低算力消耗。
2、稀疏激活技術(shù)
MoE(Mixture-of-Experts)架構(gòu)的引入使Qwen3實(shí)現(xiàn)參數(shù)效率的突破。例如,Qwen3-30B-A3B模型總參數(shù)約300億,但僅激活30億參數(shù)即可達(dá)到QwQ-32B(激活參數(shù)超300億)的性能水平,激活參數(shù)占比僅為10%。這種稀疏激活機(jī)制大幅減少計(jì)算資源占用,同時(shí)保持模型在STEM、編碼等領(lǐng)域的競爭力。
3、多階段預(yù)訓(xùn)練與長上下文擴(kuò)展
Qwen3的預(yù)訓(xùn)練分為三階段:
階段一:基于30萬億token進(jìn)行基礎(chǔ)語言技能訓(xùn)練,上下文長度4K;
階段二:增加STEM、編程等知識密集型數(shù)據(jù),擴(kuò)展至35萬億token;
階段三:引入高質(zhì)量長上下文數(shù)據(jù),將上下文長度提升至32K(Dense模型)和128K(MoE模型)。
這種漸進(jìn)式訓(xùn)練策略使Qwen3-4B等小模型即可匹敵Qwen2.5-72B-Instruct的性能,同時(shí)支持超長文本處理。
4、四階段后訓(xùn)練流程
后訓(xùn)練流程涵蓋四個關(guān)鍵階段:
長思維鏈冷啟動:通過數(shù)學(xué)、代碼等長思維鏈數(shù)據(jù)微調(diào),構(gòu)建基礎(chǔ)推理能力;
長思維鏈強(qiáng)化學(xué)習(xí):利用規(guī)則獎勵增強(qiáng)模型探索能力;
思維模式融合:將非思考模式整合至推理模型,實(shí)現(xiàn)快速響應(yīng)與深度思考的無縫切換;
通用強(qiáng)化學(xué)習(xí):在指令遵循、Agent能力等20余個領(lǐng)域優(yōu)化模型表現(xiàn)。
該流程使Qwen3在ArenaHard人類偏好對齊測試中得分95.6,超越OpenAI-o1及DeepSeek-R1。
5、多語言與工具調(diào)用能力的增強(qiáng)
Qwen3支持119種語言及方言,覆蓋簡體中文、繁體中文、粵語等,并通過Qwen-Agent框架原生支持MCP協(xié)議,簡化工具調(diào)用流程。例如,在BFCL Agent能力評測中,Qwen3得分70.8,超越Gemini2.5-Pro等模型,顯著降低復(fù)雜任務(wù)實(shí)現(xiàn)門檻。
6、數(shù)據(jù)規(guī)模與質(zhì)量的雙重提升
預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36萬億token,較Qwen2.5的18萬億token增長近一倍。數(shù)據(jù)來源包括網(wǎng)上數(shù)據(jù)爬取、PDF文檔解析(通過Qwen2.5-VL提取文本并優(yōu)化質(zhì)量)、數(shù)學(xué)/代碼數(shù)據(jù)合成(利用Qwen2.5-Math/Coder生成教材、問答對及代碼片段)。這種多模態(tài)數(shù)據(jù)構(gòu)建策略為模型提供了跨領(lǐng)域的知識儲備。
7、靈活的部署與成本控制
Qwen3提供從0.6B到235B的參數(shù)規(guī)模選擇,滿足不同場景需求:
輕量化場景:Qwen3-4B適用于手機(jī)端部署;
邊緣計(jì)算:Qwen3-8B支持電腦及車載設(shè)備;
企業(yè)級應(yīng)用:Qwen3-32B適配大規(guī)模推理任務(wù)。
例如,Qwen3-235B-A22B僅需4張H20顯卡即可部署,顯存占用為同性能模型的三分之一,顯著降低部署成本。