99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

阿里巴巴發布Qwen 3,聲稱性能超越DeepSeek R1引領開源模型新篇章

   發布時間:2025-04-29 11:15 作者:鈦媒體APP

阿里巴巴集團于本周二震撼發布其旗艦人工智能模型Qwen 3,標志著AI技術邁入全新紀元。此次升級聚焦于混合推理能力,為用戶帶來前所未有的智能體驗。

Qwen3系列中的旗艦版Qwen3-235B-A22B,雖擁有高達2350億參數,但運行時僅需激活220億參數,這一設計巧妙地降低了運營成本,同時性能超越DeepSeek-R1和OpenAI-o1等業界領先模型,成為全球最強大的開源AI模型。

在中國AI領域競爭日益激烈的背景下,本土初創企業DeepSeek的迅速崛起尤為引人注目。今年早些時候,DeepSeek宣布能以更低成本提供高性能模型,挑戰西方競爭對手。受此驅動,中國AI市場熱度持續攀升。

上周五,中國搜索引擎巨頭百度也不甘落后,推出了Ernie 4.5 Turbo和推理優化版Ernie X1 Turbo模型,進一步加劇了市場競爭。

阿里巴巴新推出的Qwen 3將傳統AI任務與先進動態推理技術相結合,為應用與軟件開發者提供了一個更加靈活高效的平臺。相比年初緊急發布的Qwen 2.5-Max,Qwen 3在性能上實現了顯著提升。

Qwen 3基于36萬億字節的龐大數據集進行訓練,并在后續階段經歷多輪強化學習。它巧妙融合了快速思考與慢速思考模式,在推理、指令遵循、工具利用及多語言能力等方面實現顯著提升,為全球開源模型樹立了新的性能標桿。

Qwen 3系列涵蓋八種模型,包括兩個參數分別為300億和2350億的混合專家(MoE)模型,以及六個參數從0.6億至32億不等的密集模型。每種模型均在其尺寸類別內實現了開源模型中的頂尖性能。

尤為Qwen3的300億參數MoE模型在效率上實現了十倍提升,僅需激活30億參數即可媲美上一代Qwen2.5-32B模型的性能。同時,Qwen3的密集模型繼續突破極限,以一半參數數量實現高性能。例如,Qwen3的320億版本在多個層級上超越了Qwen2.5-72B模型的性能。

四月成為大型模型發布的密集期。OpenAI推出了GPT-4.1 o3和o4 mini系列模型,谷歌發布了Gemini 2.5 Flash Preview混合推理模型,而Doubao則宣布了1.5·Deep Thinking模型。行業內其他主要玩家也開源或更新了眾多模型。關于DeepSeek R2即將發布的傳聞甚囂塵上,盡管這些報道大多仍屬猜測。

無論DeepSeek R2是否發布,Qwen3已搶占先機,成為大型模型“普及化”的真正起點。

作為中國首款混合推理模型,Qwen 3支持兩種獨特的推理模式:慢速思考模式適合處理復雜問題,通過逐步推理得出最終答案;而快速思考模式則適用于簡單問題,能夠迅速給出回應。Qwen 3的所有模型均為混合推理模型,這一創新設計將“快速思考”與“慢速思考”融為一體,根據任務需求靈活切換思考模式,顯著降低了計算資源消耗。

Qwen 3的API允許用戶自定義“思考預算”(即用于深度推理的最大令牌數),從而滿足不同場景下AI應用的多樣性能和成本需求。例如,40億參數的模型適合移動設備,80億參數的模型可順暢部署于計算機和汽車系統,而320億參數的模型則備受大型企業青睞。

在衡量數學解題能力的AIME25評估中,Qwen 3以81.5分的優異成績刷新了開源模型的記錄。在評估編碼能力的LiveCodeBench測試中,Qwen 3突破70分大關,超越Grok3。在評估與人類偏好一致性的ArenaHard評估中,Qwen 3以95.6分的驚人成績超越OpenAI-o1和DeepSeek-R1。

盡管性能大幅提升,Qwen 3的部署成本卻大幅降低。其全功率版本僅需四臺H20 GPU即可部署,內存使用量僅為類似性能模型的三分之一。

Qwen-3模型支持119種語言和方言,目前這些模型已在Apache 2.0許可下開源,并可在Hugging Face、ModelScope和Kaggle等平臺上獲取。阿里巴巴還推薦使用SGLang和vLLM等框架進行模型部署,同時支持Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具進行本地使用。

Qwen-3還專注于智能代理和大型語言模型的應用。在評估代理能力的BFCL測試中,Qwen-3以70.8分的新高分超越Gemini2.5-Pro和OpenAI-o1等頂級模型,顯著降低了代理有效利用工具的門檻。

Qwen-3原生支持MCP協議,具備強大的函數調用能力。結合包含預建工具調用模板和解析器的Qwen-Agent框架,它極大地降低了編碼復雜性,使代理能夠在手機和計算機上高效運行。

Qwen-3的預訓練數據集相比Qwen-2.5顯著擴大。Qwen-2.5基于18萬億令牌進行預訓練,而Qwen-3則接近翻倍,達到約36萬億令牌。為構建這一龐大數據集,Qwen團隊不僅從互聯網上收集數據,還從PDF文檔中提取信息,并利用Qwen-2.5-VL和Qwen-2.5等模型提高提取內容的質量。

為增加數學和編碼數據的數量,Qwen團隊利用Qwen-2.5-Math和Qwen-2.5-Coder等專門模型合成數據,包括教科書、問答對和代碼片段等多種格式。

預訓練過程分為三個階段。第一階段(S1)在超過30萬億令牌上進行,上下文長度為4K令牌,為模型奠定了語言技能和基礎知識。第二階段(S2)通過增加STEM、編程和推理任務等知識密集型數據的比例來改進數據集,并額外預訓練5萬億令牌。在最終階段,Qwen團隊使用高質量長上下文數據將上下文長度擴展至32K令牌,確保模型能有效處理更長輸入。

得益于模型架構的改進、訓練數據的增加以及訓練方法的優化,Qwen3 Dense基礎模型的性能可與參數更多的Qwen2.5基礎模型相媲美。例如,Qwen3-1.7B/4B/8B/14B/32B-Base的性能與Qwen2.5-3B/7B/14B/32B/72B-Base相當。尤其在STEM、編碼和推理等領域,Qwen3 Dense基礎模型甚至超越了規模更大的Qwen2.5模型。

至于Qwen3 MoE基礎模型,它們在性能上與Qwen2.5 Dense基礎模型相當,但激活參數僅占10%,從而顯著節省了訓練和推理成本。

在后續訓練中,為開發兼具推理和快速響應能力的混合模型,Qwen團隊實施了四階段訓練過程,包括:長推理鏈的冷啟動、長推理鏈的強化學習、推理模式的整合以及一般強化學習。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新