123,123,123

阿里通義千問 Qwen3 系列模型正式發(fā)布，該系列模型在技術(shù)上有何突出亮點(diǎn)？

4 月 29 日凌晨，阿里巴巴發(fā)布新一代通義千問 Qwen3 模型，登頂全球最強(qiáng)開源模型。作為國內(nèi)首個(gè)“混合推理模型”，它將“快思考”與“慢思考”集成于同一模型，大幅節(jié)省算力消耗。后訓(xùn)練模型及預(yù)訓(xùn)練基座模型已在多平臺(tái)開放使用。阿里云開源兩個(gè) MoE 模型權(quán)重，分別是擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的 Qwen3-235B-A22B ，以及約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型 Qwen3-30B-A3B 。此外，還開源六個(gè)在 Apache 2.0 許可下的 Dense 模型。旗艦?zāi)Ｐ?Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中，與 DeepSeek-R1 等頂級(jí)模型相比極具競(jìng)爭(zhēng)力；小型 MoE 模型 Qwen3-30B-A3B 激活參數(shù)少但表現(xiàn)更優(yōu)，小模型 Qwen3-4B 性能也能匹敵 Qwen2.5-72B-Instruct 。

0 條評(píng)論
分類：熱點(diǎn)看法

默認(rèn)排序時(shí)間排序

2 個(gè)回答

瀟灑劍客 2025-04-29 10:25

1、混合推理架構(gòu)

Qwen3系列初次將“快思考”（非推理模式）與“慢思考”（推理模式）集成至單一模型，通過控制參數(shù)enable_thinking實(shí)現(xiàn)模式切換。用戶可通過文本后綴/no_think或/think動(dòng)態(tài)調(diào)整響應(yīng)策略，例如在簡(jiǎn)單問答中優(yōu)先速度，在復(fù)雜代碼生成或數(shù)學(xué)推理中啟用深度思考。這種設(shè)計(jì)使Qwen3-235B-A22B在基準(zhǔn)測(cè)試中與DeepSeek-R1、Grok-3等模型表現(xiàn)相當(dāng)，同時(shí)顯著降低算力消耗。

2、稀疏激活技術(shù)

MoE（Mixture-of-Experts）架構(gòu)的引入使Qwen3實(shí)現(xiàn)參數(shù)效率的突破。例如，Qwen3-30B-A3B模型總參數(shù)約300億，但僅激活30億參數(shù)即可達(dá)到QwQ-32B（激活參數(shù)超300億）的性能水平，激活參數(shù)占比僅為10%。這種稀疏激活機(jī)制大幅減少計(jì)算資源占用，同時(shí)保持模型在STEM、編碼等領(lǐng)域的競(jìng)爭(zhēng)力。

3、多階段預(yù)訓(xùn)練與長(zhǎng)上下文擴(kuò)展

Qwen3的預(yù)訓(xùn)練分為三階段：

階段一：基于30萬億token進(jìn)行基礎(chǔ)語言技能訓(xùn)練，上下文長(zhǎng)度4K；

階段二：增加STEM、編程等知識(shí)密集型數(shù)據(jù)，擴(kuò)展至35萬億token；

階段三：引入高質(zhì)量長(zhǎng)上下文數(shù)據(jù)，將上下文長(zhǎng)度提升至32K（Dense模型）和128K（MoE模型）。

這種漸進(jìn)式訓(xùn)練策略使Qwen3-4B等小模型即可匹敵Qwen2.5-72B-Instruct的性能，同時(shí)支持超長(zhǎng)文本處理。

4、四階段后訓(xùn)練流程

后訓(xùn)練流程涵蓋四個(gè)關(guān)鍵階段：

長(zhǎng)思維鏈冷啟動(dòng)：通過數(shù)學(xué)、代碼等長(zhǎng)思維鏈數(shù)據(jù)微調(diào)，構(gòu)建基礎(chǔ)推理能力；

長(zhǎng)思維鏈強(qiáng)化學(xué)習(xí)：利用規(guī)則獎(jiǎng)勵(lì)增強(qiáng)模型探索能力；

思維模式融合：將非思考模式整合至推理模型，實(shí)現(xiàn)快速響應(yīng)與深度思考的無縫切換；

通用強(qiáng)化學(xué)習(xí)：在指令遵循、Agent能力等20余個(gè)領(lǐng)域優(yōu)化模型表現(xiàn)。

該流程使Qwen3在ArenaHard人類偏好對(duì)齊測(cè)試中得分95.6，超越OpenAI-o1及DeepSeek-R1。

5、多語言與工具調(diào)用能力的增強(qiáng)

Qwen3支持119種語言及方言，覆蓋簡(jiǎn)體中文、繁體中文、粵語等，并通過Qwen-Agent框架原生支持MCP協(xié)議，簡(jiǎn)化工具調(diào)用流程。例如，在BFCL Agent能力評(píng)測(cè)中，Qwen3得分70.8，超越Gemini2.5-Pro等模型，顯著降低復(fù)雜任務(wù)實(shí)現(xiàn)門檻。

6、數(shù)據(jù)規(guī)模與質(zhì)量的雙重提升

預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36萬億token，較Qwen2.5的18萬億token增長(zhǎng)近一倍。數(shù)據(jù)來源包括網(wǎng)上數(shù)據(jù)爬取、PDF文檔解析（通過Qwen2.5-VL提取文本并優(yōu)化質(zhì)量）、數(shù)學(xué)/代碼數(shù)據(jù)合成（利用Qwen2.5-Math/Coder生成教材、問答對(duì)及代碼片段）。這種多模態(tài)數(shù)據(jù)構(gòu)建策略為模型提供了跨領(lǐng)域的知識(shí)儲(chǔ)備。

7、靈活的部署與成本控制

Qwen3提供從0.6B到235B的參數(shù)規(guī)模選擇，滿足不同場(chǎng)景需求：

輕量化場(chǎng)景：Qwen3-4B適用于手機(jī)端部署；

邊緣計(jì)算：Qwen3-8B支持電腦及車載設(shè)備；

企業(yè)級(jí)應(yīng)用：Qwen3-32B適配大規(guī)模推理任務(wù)。

例如，Qwen3-235B-A22B僅需4張H20顯卡即可部署，顯存占用為同性能模型的三分之一，顯著降低部署成本。

扶搖 2025-04-29 10:47

1、混合推理模型

Qwen3 是國內(nèi)初次發(fā)布的“混合推理模型”，它把“快思考”和“慢思考”集成到一個(gè)模型里。面對(duì)復(fù)雜問題時(shí)，能像人一樣多步驟深入思考；遇到簡(jiǎn)單問題，又能快速給出回答。這種設(shè)計(jì)既提升了模型的智能水平，還降低了算力消耗，挺實(shí)用的。

2、多種思考模式

Qwen3 支持兩種思考模式。一種是思考模式，模型會(huì)逐步推理，適合復(fù)雜問題；另一種是非思考模式，能快速響應(yīng)，適合簡(jiǎn)單問題。用戶能根據(jù)具體任務(wù)控制模型的思考程度，比如難題可以讓模型多推理幾步，簡(jiǎn)單問題直接要答案，靈活性很高。

3、多語言支持

Qwen3 模型支持 119 種語言和方言，像簡(jiǎn)體中文、繁體中文、粵語等都在其中。這個(gè)廣泛的多語言能力讓它在國際應(yīng)用上潛力很大，能讓全球更多用戶用上這些模型。

4、預(yù)訓(xùn)練數(shù)據(jù)量大

Qwen3 的預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模龐大，使用了約 36 萬億個(gè) token，是上一代的兩倍。數(shù)據(jù)來源多樣，包括網(wǎng)上數(shù)據(jù)、PDF 文檔等，還通過一些優(yōu)化方式提高數(shù)據(jù)質(zhì)量。經(jīng)過三個(gè)階段的預(yù)訓(xùn)練，模型在處理長(zhǎng)輸入、語言技能和通用知識(shí)方面更強(qiáng)了。

5、性能表現(xiàn)優(yōu)異

從官方介紹來看，旗艦?zāi)Ｐ?Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中，和 DeepSeek-R1、o1 等模型相比，結(jié)果很有競(jìng)爭(zhēng)力。而且小型 MoE 模型 Qwen3-30B-A3B 激活參數(shù)少，性能卻更好，小模型 Qwen3-4B 也能媲美一些更大模型。

6、開源多個(gè)模型

阿里云開源了兩個(gè) MoE 模型權(quán)重，Qwen3-235B-A22B 和 Qwen3-30B-A3B，還開源了六個(gè) Dense 模型，從 Qwen3-32B 到 Qwen3-0.6B 都有，均在 Apache 2.0 許可下開源。這降低了開發(fā)門檻，有利于推動(dòng)技術(shù)發(fā)展和應(yīng)用。

7、部署成本低

Qwen3 的部署成本大幅降低，僅需 4 張 H20 顯卡就能實(shí)現(xiàn)“滿血版”部署，顯存占用還小。對(duì)于部署，官方推薦了一些框架和工具，進(jìn)一步簡(jiǎn)化了部署流程。

阿里通義千問 Qwen3 系列模型正式發(fā)布，該系列模型在技術(shù)上有何突出亮點(diǎn)？

2 個(gè)回答

相似問題

阿里通義千問 Qwen3 系列模型正式發(fā)布，該系列模型在技術(shù)上有何突出亮點(diǎn)？