阿里通義千問 Qwen3 系列模型正式發(fā)布,該系列模型在技術(shù)上有何突出亮點(diǎn)?

4 月 29 日凌晨,阿里巴巴發(fā)布新一代通義千問 Qwen3 模型,登頂全球最強(qiáng)開源模型。作為國內(nèi)首個“混合推理模型”,它將“快思考”與“慢思考”集成于同一模型,大幅節(jié)省算力消耗。后訓(xùn)練模型及預(yù)訓(xùn)練基座模型已在多平臺開放使用。阿里云開源兩個 MoE 模型權(quán)重,分別是擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的 Qwen3-235B-A22B ,以及約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型 Qwen3-30B-A3B 。此外,還開源六個在 Apache 2.0 許可下的 Dense 模型。旗艦?zāi)P?Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中,與 DeepSeek-R1 等頂級模型相比極具競爭力;小型 MoE 模型 Qwen3-30B-A3B 激活參數(shù)少但表現(xiàn)更優(yōu),小模型 Qwen3-4B 性能也能匹敵 Qwen2.5-72B-Instruct 。

請先 登錄 后評論

2 個回答

瀟灑劍客

1、混合推理架構(gòu)

Qwen3系列初次將“快思考”(非推理模式)與“慢思考”(推理模式)集成至單一模型,通過控制參數(shù)enable_thinking實(shí)現(xiàn)模式切換。用戶可通過文本后綴/no_think或/think動態(tài)調(diào)整響應(yīng)策略,例如在簡單問答中優(yōu)先速度,在復(fù)雜代碼生成或數(shù)學(xué)推理中啟用深度思考。這種設(shè)計(jì)使Qwen3-235B-A22B在基準(zhǔn)測試中與DeepSeek-R1、Grok-3等模型表現(xiàn)相當(dāng),同時(shí)顯著降低算力消耗。

2、稀疏激活技術(shù)

MoE(Mixture-of-Experts)架構(gòu)的引入使Qwen3實(shí)現(xiàn)參數(shù)效率的突破。例如,Qwen3-30B-A3B模型總參數(shù)約300億,但僅激活30億參數(shù)即可達(dá)到QwQ-32B(激活參數(shù)超300億)的性能水平,激活參數(shù)占比僅為10%。這種稀疏激活機(jī)制大幅減少計(jì)算資源占用,同時(shí)保持模型在STEM、編碼等領(lǐng)域的競爭力。

3、多階段預(yù)訓(xùn)練與長上下文擴(kuò)展

Qwen3的預(yù)訓(xùn)練分為三階段:

階段一:基于30萬億token進(jìn)行基礎(chǔ)語言技能訓(xùn)練,上下文長度4K;

階段二:增加STEM、編程等知識密集型數(shù)據(jù),擴(kuò)展至35萬億token;

階段三:引入高質(zhì)量長上下文數(shù)據(jù),將上下文長度提升至32K(Dense模型)和128K(MoE模型)。

這種漸進(jìn)式訓(xùn)練策略使Qwen3-4B等小模型即可匹敵Qwen2.5-72B-Instruct的性能,同時(shí)支持超長文本處理。

4、四階段后訓(xùn)練流程

后訓(xùn)練流程涵蓋四個關(guān)鍵階段:

長思維鏈冷啟動:通過數(shù)學(xué)、代碼等長思維鏈數(shù)據(jù)微調(diào),構(gòu)建基礎(chǔ)推理能力;

長思維鏈強(qiáng)化學(xué)習(xí):利用規(guī)則獎勵增強(qiáng)模型探索能力;

思維模式融合:將非思考模式整合至推理模型,實(shí)現(xiàn)快速響應(yīng)與深度思考的無縫切換;

通用強(qiáng)化學(xué)習(xí):在指令遵循、Agent能力等20余個領(lǐng)域優(yōu)化模型表現(xiàn)。

該流程使Qwen3在ArenaHard人類偏好對齊測試中得分95.6,超越OpenAI-o1及DeepSeek-R1。

5、多語言與工具調(diào)用能力的增強(qiáng)

Qwen3支持119種語言及方言,覆蓋簡體中文、繁體中文、粵語等,并通過Qwen-Agent框架原生支持MCP協(xié)議,簡化工具調(diào)用流程。例如,在BFCL Agent能力評測中,Qwen3得分70.8,超越Gemini2.5-Pro等模型,顯著降低復(fù)雜任務(wù)實(shí)現(xiàn)門檻。

6、數(shù)據(jù)規(guī)模與質(zhì)量的雙重提升

預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36萬億token,較Qwen2.5的18萬億token增長近一倍。數(shù)據(jù)來源包括網(wǎng)上數(shù)據(jù)爬取、PDF文檔解析(通過Qwen2.5-VL提取文本并優(yōu)化質(zhì)量)、數(shù)學(xué)/代碼數(shù)據(jù)合成(利用Qwen2.5-Math/Coder生成教材、問答對及代碼片段)。這種多模態(tài)數(shù)據(jù)構(gòu)建策略為模型提供了跨領(lǐng)域的知識儲備。

7、靈活的部署與成本控制

Qwen3提供從0.6B到235B的參數(shù)規(guī)模選擇,滿足不同場景需求:

輕量化場景:Qwen3-4B適用于手機(jī)端部署;

邊緣計(jì)算:Qwen3-8B支持電腦及車載設(shè)備;

企業(yè)級應(yīng)用:Qwen3-32B適配大規(guī)模推理任務(wù)。

例如,Qwen3-235B-A22B僅需4張H20顯卡即可部署,顯存占用為同性能模型的三分之一,顯著降低部署成本。

請先 登錄 后評論
扶搖

1、混合推理模型

Qwen3 是國內(nèi)初次發(fā)布的“混合推理模型”,它把“快思考”和“慢思考”集成到一個模型里。面對復(fù)雜問題時(shí),能像人一樣多步驟深入思考;遇到簡單問題,又能快速給出回答。這種設(shè)計(jì)既提升了模型的智能水平,還降低了算力消耗,挺實(shí)用的。

2、多種思考模式

Qwen3 支持兩種思考模式。一種是思考模式,模型會逐步推理,適合復(fù)雜問題;另一種是非思考模式,能快速響應(yīng),適合簡單問題。用戶能根據(jù)具體任務(wù)控制模型的思考程度,比如難題可以讓模型多推理幾步,簡單問題直接要答案,靈活性很高。

3、多語言支持

Qwen3 模型支持 119 種語言和方言,像簡體中文、繁體中文、粵語等都在其中。這個廣泛的多語言能力讓它在國際應(yīng)用上潛力很大,能讓全球更多用戶用上這些模型。

4、預(yù)訓(xùn)練數(shù)據(jù)量大

Qwen3 的預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模龐大,使用了約 36 萬億個 token,是上一代的兩倍。數(shù)據(jù)來源多樣,包括網(wǎng)上數(shù)據(jù)、PDF 文檔等,還通過一些優(yōu)化方式提高數(shù)據(jù)質(zhì)量。經(jīng)過三個階段的預(yù)訓(xùn)練,模型在處理長輸入、語言技能和通用知識方面更強(qiáng)了。

5、性能表現(xiàn)優(yōu)異

從官方介紹來看,旗艦?zāi)P?Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中,和 DeepSeek-R1、o1 等模型相比,結(jié)果很有競爭力。而且小型 MoE 模型 Qwen3-30B-A3B 激活參數(shù)少,性能卻更好,小模型 Qwen3-4B 也能媲美一些更大模型。

6、開源多個模型

阿里云開源了兩個 MoE 模型權(quán)重,Qwen3-235B-A22B 和 Qwen3-30B-A3B,還開源了六個 Dense 模型,從 Qwen3-32B 到 Qwen3-0.6B 都有,均在 Apache 2.0 許可下開源。這降低了開發(fā)門檻,有利于推動技術(shù)發(fā)展和應(yīng)用。

7、部署成本低

Qwen3 的部署成本大幅降低,僅需 4 張 H20 顯卡就能實(shí)現(xiàn)“滿血版”部署,顯存占用還小。對于部署,官方推薦了一些框架和工具,進(jìn)一步簡化了部署流程。

請先 登錄 后評論