阿里巴巴發布Qwen 3，聲稱性能超越DeepSeek R1引領開源模型新篇章

發布時間：2025-04-29 11:15 來源：鈦媒體APP 作者：鈦媒體APP

阿里巴巴集團于本周二震撼發布其旗艦人工智能模型Qwen 3，標志著AI技術邁入全新紀元。此次升級聚焦于混合推理能力，為用戶帶來前所未有的智能體驗。

Qwen3系列中的旗艦版Qwen3-235B-A22B，雖擁有高達2350億參數，但運行時僅需激活220億參數，這一設計巧妙地降低了運營成本，同時性能超越DeepSeek-R1和OpenAI-o1等業界領先模型，成為全球最強大的開源AI模型。

在中國AI領域競爭日益激烈的背景下，本土初創企業DeepSeek的迅速崛起尤為引人注目。今年早些時候，DeepSeek宣布能以更低成本提供高性能模型，挑戰西方競爭對手。受此驅動，中國AI市場熱度持續攀升。

上周五，中國搜索引擎巨頭百度也不甘落后，推出了Ernie 4.5 Turbo和推理優化版Ernie X1 Turbo模型，進一步加劇了市場競爭。

阿里巴巴新推出的Qwen 3將傳統AI任務與先進動態推理技術相結合，為應用與軟件開發者提供了一個更加靈活高效的平臺。相比年初緊急發布的Qwen 2.5-Max，Qwen 3在性能上實現了顯著提升。

Qwen 3基于36萬億字節的龐大數據集進行訓練，并在后續階段經歷多輪強化學習。它巧妙融合了快速思考與慢速思考模式，在推理、指令遵循、工具利用及多語言能力等方面實現顯著提升，為全球開源模型樹立了新的性能標桿。

Qwen 3系列涵蓋八種模型，包括兩個參數分別為300億和2350億的混合專家（MoE）模型，以及六個參數從0.6億至32億不等的密集模型。每種模型均在其尺寸類別內實現了開源模型中的頂尖性能。

尤為Qwen3的300億參數MoE模型在效率上實現了十倍提升，僅需激活30億參數即可媲美上一代Qwen2.5-32B模型的性能。同時，Qwen3的密集模型繼續突破極限，以一半參數數量實現高性能。例如，Qwen3的320億版本在多個層級上超越了Qwen2.5-72B模型的性能。

四月成為大型模型發布的密集期。OpenAI推出了GPT-4.1 o3和o4 mini系列模型，谷歌發布了Gemini 2.5 Flash Preview混合推理模型，而Doubao則宣布了1.5·Deep Thinking模型。行業內其他主要玩家也開源或更新了眾多模型。關于DeepSeek R2即將發布的傳聞甚囂塵上，盡管這些報道大多仍屬猜測。

無論DeepSeek R2是否發布，Qwen3已搶占先機，成為大型模型“普及化”的真正起點。

作為中國首款混合推理模型，Qwen 3支持兩種獨特的推理模式：慢速思考模式適合處理復雜問題，通過逐步推理得出最終答案；而快速思考模式則適用于簡單問題，能夠迅速給出回應。Qwen 3的所有模型均為混合推理模型，這一創新設計將“快速思考”與“慢速思考”融為一體，根據任務需求靈活切換思考模式，顯著降低了計算資源消耗。

Qwen 3的API允許用戶自定義“思考預算”（即用于深度推理的最大令牌數），從而滿足不同場景下AI應用的多樣性能和成本需求。例如，40億參數的模型適合移動設備，80億參數的模型可順暢部署于計算機和汽車系統，而320億參數的模型則備受大型企業青睞。

在衡量數學解題能力的AIME25評估中，Qwen 3以81.5分的優異成績刷新了開源模型的記錄。在評估編碼能力的LiveCodeBench測試中，Qwen 3突破70分大關，超越Grok3。在評估與人類偏好一致性的ArenaHard評估中，Qwen 3以95.6分的驚人成績超越OpenAI-o1和DeepSeek-R1。

盡管性能大幅提升，Qwen 3的部署成本卻大幅降低。其全功率版本僅需四臺H20 GPU即可部署，內存使用量僅為類似性能模型的三分之一。

Qwen-3模型支持119種語言和方言，目前這些模型已在Apache 2.0許可下開源，并可在Hugging Face、ModelScope和Kaggle等平臺上獲取。阿里巴巴還推薦使用SGLang和vLLM等框架進行模型部署，同時支持Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具進行本地使用。

Qwen-3還專注于智能代理和大型語言模型的應用。在評估代理能力的BFCL測試中，Qwen-3以70.8分的新高分超越Gemini2.5-Pro和OpenAI-o1等頂級模型，顯著降低了代理有效利用工具的門檻。

Qwen-3原生支持MCP協議，具備強大的函數調用能力。結合包含預建工具調用模板和解析器的Qwen-Agent框架，它極大地降低了編碼復雜性，使代理能夠在手機和計算機上高效運行。

Qwen-3的預訓練數據集相比Qwen-2.5顯著擴大。Qwen-2.5基于18萬億令牌進行預訓練，而Qwen-3則接近翻倍，達到約36萬億令牌。為構建這一龐大數據集，Qwen團隊不僅從互聯網上收集數據，還從PDF文檔中提取信息，并利用Qwen-2.5-VL和Qwen-2.5等模型提高提取內容的質量。

為增加數學和編碼數據的數量，Qwen團隊利用Qwen-2.5-Math和Qwen-2.5-Coder等專門模型合成數據，包括教科書、問答對和代碼片段等多種格式。

預訓練過程分為三個階段。第一階段（S1）在超過30萬億令牌上進行，上下文長度為4K令牌，為模型奠定了語言技能和基礎知識。第二階段（S2）通過增加STEM、編程和推理任務等知識密集型數據的比例來改進數據集，并額外預訓練5萬億令牌。在最終階段，Qwen團隊使用高質量長上下文數據將上下文長度擴展至32K令牌，確保模型能有效處理更長輸入。

得益于模型架構的改進、訓練數據的增加以及訓練方法的優化，Qwen3 Dense基礎模型的性能可與參數更多的Qwen2.5基礎模型相媲美。例如，Qwen3-1.7B/4B/8B/14B/32B-Base的性能與Qwen2.5-3B/7B/14B/32B/72B-Base相當。尤其在STEM、編碼和推理等領域，Qwen3 Dense基礎模型甚至超越了規模更大的Qwen2.5模型。

至于Qwen3 MoE基礎模型，它們在性能上與Qwen2.5 Dense基礎模型相當，但激活參數僅占10%，從而顯著節省了訓練和推理成本。

在后續訓練中，為開發兼具推理和快速響應能力的混合模型，Qwen團隊實施了四階段訓練過程，包括：長推理鏈的冷啟動、長推理鏈的強化學習、推理模式的整合以及一般強化學習。