阿里云通義千問團(tuán)隊(duì)近日宣布推出Qwen3.7-Plus多模態(tài)智能體模型,該模型通過整合視覺與語言處理能力,構(gòu)建了統(tǒng)一化的智能基座。這一突破性進(jìn)展標(biāo)志著人工智能技術(shù)向多模態(tài)交互領(lǐng)域邁出重要一步,為復(fù)雜場景下的智能應(yīng)用提供了更高效的解決方案。
在技術(shù)架構(gòu)層面,Qwen3.7-Plus在原有文本處理與智能體功能基礎(chǔ)上,深度融合了視覺認(rèn)知模塊。新模型支持圖像、視頻、屏幕截圖及網(wǎng)頁內(nèi)容等多種視覺輸入形式,并能在圖形用戶界面(GUI)和命令行界面(CLI)環(huán)境中自主執(zhí)行任務(wù)。根據(jù)全球權(quán)威視覺大模型評測平臺Vision Arena最新數(shù)據(jù),該模型在綜合性能排名中位列全球前五,同時(shí)摘得中國區(qū)榜首桂冠。
實(shí)際應(yīng)用測試中,基于Qwen3.7-Plus構(gòu)建的Hybrid-Agent系統(tǒng)展現(xiàn)出強(qiáng)大能力。該系統(tǒng)在持續(xù)11小時(shí)的穩(wěn)定運(yùn)行期間,自主完成了英語單詞學(xué)習(xí)類應(yīng)用程序的全流程開發(fā),涵蓋需求分析、界面設(shè)計(jì)到功能實(shí)現(xiàn)等完整環(huán)節(jié)。更令人矚目的是,系統(tǒng)成功復(fù)刻了macOS系統(tǒng)原生Stocks應(yīng)用的視覺效果與交互邏輯,實(shí)現(xiàn)像素級還原度,驗(yàn)證了多模態(tài)智能體在復(fù)雜軟件開發(fā)場景中的可行性。
需要特別說明的是,本報(bào)道所涉及的技術(shù)參數(shù)與應(yīng)用案例均基于公開信息整理,相關(guān)數(shù)據(jù)及結(jié)論不構(gòu)成任何形式的投資參考。讀者在應(yīng)用相關(guān)技術(shù)時(shí),建議通過官方渠道獲取最新信息并進(jìn)行獨(dú)立驗(yàn)證。















