1、混合推理架構
Qwen3系列初次將“快思考”(非推理模式)與“慢思考”(推理模式)集成至單一模型,通過控制參數(shù)enable_thinking實現(xiàn)模式切換。用戶可通過文本后綴/no_think或/think動態(tài)調(diào)整響應策略,例如在簡單問答中優(yōu)先速度,在復雜代碼生成或數(shù)學推理中啟用深度思考。這種設計使Qwen3-235B-A22B在基準測試中與DeepSeek-R1、Grok-3等模型表現(xiàn)相當,同時顯著降低算力消耗。
2、稀疏激活技術
MoE(Mixture-of-Experts)架構的引入使Qwen3實現(xiàn)參數(shù)效率的突破。例如,Qwen3-30B-A3B模型總參數(shù)約300億,但僅激活30億參數(shù)即可達到QwQ-32B(激活參數(shù)超300億)的性能水平,激活參數(shù)占比僅為10%。這種稀疏激活機制大幅減少計算資源占用,同時保持模型在STEM、編碼等領域的競爭力。
3、多階段預訓練與長上下文擴展
Qwen3的預訓練分為三階段:
階段一:基于30萬億token進行基礎語言技能訓練,上下文長度4K;
階段二:增加STEM、編程等知識密集型數(shù)據(jù),擴展至35萬億token;
階段三:引入高質(zhì)量長上下文數(shù)據(jù),將上下文長度提升至32K(Dense模型)和128K(MoE模型)。
這種漸進式訓練策略使Qwen3-4B等小模型即可匹敵Qwen2.5-72B-Instruct的性能,同時支持超長文本處理。
4、四階段后訓練流程
后訓練流程涵蓋四個關鍵階段:
長思維鏈冷啟動:通過數(shù)學、代碼等長思維鏈數(shù)據(jù)微調(diào),構建基礎推理能力;
長思維鏈強化學習:利用規(guī)則獎勵增強模型探索能力;
思維模式融合:將非思考模式整合至推理模型,實現(xiàn)快速響應與深度思考的無縫切換;
通用強化學習:在指令遵循、Agent能力等20余個領域優(yōu)化模型表現(xiàn)。
該流程使Qwen3在ArenaHard人類偏好對齊測試中得分95.6,超越OpenAI-o1及DeepSeek-R1。
5、多語言與工具調(diào)用能力的增強
Qwen3支持119種語言及方言,覆蓋簡體中文、繁體中文、粵語等,并通過Qwen-Agent框架原生支持MCP協(xié)議,簡化工具調(diào)用流程。例如,在BFCL Agent能力評測中,Qwen3得分70.8,超越Gemini2.5-Pro等模型,顯著降低復雜任務實現(xiàn)門檻。
6、數(shù)據(jù)規(guī)模與質(zhì)量的雙重提升
預訓練數(shù)據(jù)量達36萬億token,較Qwen2.5的18萬億token增長近一倍。數(shù)據(jù)來源包括網(wǎng)上數(shù)據(jù)爬取、PDF文檔解析(通過Qwen2.5-VL提取文本并優(yōu)化質(zhì)量)、數(shù)學/代碼數(shù)據(jù)合成(利用Qwen2.5-Math/Coder生成教材、問答對及代碼片段)。這種多模態(tài)數(shù)據(jù)構建策略為模型提供了跨領域的知識儲備。
7、靈活的部署與成本控制
Qwen3提供從0.6B到235B的參數(shù)規(guī)模選擇,滿足不同場景需求:
輕量化場景:Qwen3-4B適用于手機端部署;
邊緣計算:Qwen3-8B支持電腦及車載設備;
企業(yè)級應用:Qwen3-32B適配大規(guī)模推理任務。
例如,Qwen3-235B-A22B僅需4張H20顯卡即可部署,顯存占用為同性能模型的三分之一,顯著降低部署成本。