黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

蘋果DeepMMSearch-R1模型:用“圖像裁剪術(shù)”攻克AI視覺搜索難題

   時間:2026-01-15 15:01 來源:快訊作者:馮璃月

蘋果公司近日在人工智能領(lǐng)域取得重要進(jìn)展,其研發(fā)團(tuán)隊(duì)發(fā)表的研究論文詳細(xì)介紹了一款名為DeepMMSearch-R1的新型AI模型。該模型針對復(fù)雜視覺場景下的信息檢索問題進(jìn)行了深度優(yōu)化,通過創(chuàng)新技術(shù)解決了傳統(tǒng)AI模型在處理多要素視覺任務(wù)時常見的準(zhǔn)確性不足問題。

傳統(tǒng)AI模型在面對包含多個視覺元素的復(fù)合問題時,往往難以精準(zhǔn)定位關(guān)鍵信息。例如當(dāng)詢問"畫面左上角鳥類的最高飛行速度"時,現(xiàn)有模型可能因無法聚焦局部細(xì)節(jié)而返回整個鳥群的平均速度數(shù)據(jù)。這種"答非所問"或"漏看關(guān)鍵信息"的現(xiàn)象,在醫(yī)療影像分析、工業(yè)質(zhì)檢等需要高精度識別的場景中尤為突出。

DeepMMSearch-R1的核心突破在于引入了視覺定位工具系統(tǒng)。該系統(tǒng)通過動態(tài)圖像裁剪技術(shù),能夠自動識別并隔離干擾元素,將處理范圍聚焦于目標(biāo)區(qū)域。這種"先定位后驗(yàn)證"的處理流程,使模型在保持整體場景理解能力的同時,顯著提升了微小目標(biāo)的識別精度。研究團(tuán)隊(duì)特別設(shè)計(jì)了雙重驗(yàn)證機(jī)制,確保裁剪后的圖像信息仍能保持語義完整性。

為平衡計(jì)算效率與處理精度,研發(fā)團(tuán)隊(duì)創(chuàng)新性地采用混合訓(xùn)練策略。通過監(jiān)督微調(diào)技術(shù),模型學(xué)習(xí)在何種場景下需要啟動裁剪功能,避免不必要的計(jì)算資源消耗;結(jié)合在線強(qiáng)化學(xué)習(xí)算法,持續(xù)優(yōu)化工具調(diào)用的時機(jī)與范圍。這種訓(xùn)練方式使模型在保持響應(yīng)速度的同時,將準(zhǔn)確率提升了37%。

獨(dú)立測試表明,在需要精確圖文匹配的任務(wù)中,DeepMMSearch-R1的表現(xiàn)明顯優(yōu)于現(xiàn)有檢索增強(qiáng)生成(RAG)系統(tǒng)及提示詞驅(qū)動的搜索智能體。特別是在處理包含遮擋、重疊或微小元素的復(fù)雜圖像時,該模型能準(zhǔn)確識別并提取關(guān)鍵信息,有效解決了AI系統(tǒng)在常識性事實(shí)檢索中常見的"簡化處理"問題。目前研究團(tuán)隊(duì)正在探索該技術(shù)在自動駕駛、遠(yuǎn)程醫(yī)療等領(lǐng)域的應(yīng)用可能性。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群