合成孔徑雷達(dá)(SAR)因其獨(dú)特的主動(dòng)式微波成像機(jī)制,在遙感領(lǐng)域占據(jù)重要地位。然而,傳統(tǒng)視覺(jué)模型多基于光學(xué)圖像開發(fā),難以直接適配SAR圖像的特殊性質(zhì)。哈工大團(tuán)隊(duì)近日提出名為SUMMIT的SAR基礎(chǔ)模型,通過(guò)融合多輔助任務(wù)的自監(jiān)督學(xué)習(xí)框架,在分類、檢測(cè)和分割等任務(wù)中取得突破性進(jìn)展,相關(guān)論文發(fā)表于國(guó)際學(xué)術(shù)期刊。
SAR圖像的生成依賴于回波矢量疊加,導(dǎo)致其存在斑點(diǎn)噪聲和幾何畸變等光學(xué)圖像中不存在的特性。SAR圖像為單通道幅度信息,目標(biāo)表征主要依賴強(qiáng)散射點(diǎn)和邊緣結(jié)構(gòu),而非光學(xué)圖像中的顏色與紋理。這些差異使得直接遷移光學(xué)模型至SAR領(lǐng)域效果不佳,且現(xiàn)有SAR預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模有限、質(zhì)量參差不齊,進(jìn)一步限制了模型性能。
針對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)以視覺(jué)Transformer(ViT)的掩碼自編碼器(MAE)架構(gòu)為基礎(chǔ),創(chuàng)新性地引入輔助任務(wù)協(xié)調(diào)模塊(ATCM)。該模塊將三個(gè)物理驅(qū)動(dòng)的自監(jiān)督任務(wù)——自監(jiān)督去噪、邊緣特征增強(qiáng)和散射點(diǎn)特征提取——無(wú)縫集成至預(yù)訓(xùn)練流程。例如,在去噪任務(wù)中,模型通過(guò)對(duì)數(shù)變換和模擬高斯噪聲注入,學(xué)習(xí)從含噪數(shù)據(jù)中恢復(fù)純凈信號(hào);在散射點(diǎn)提取任務(wù)中,利用Harris角點(diǎn)檢測(cè)定位強(qiáng)后向散射中心,強(qiáng)化模型對(duì)目標(biāo)關(guān)鍵結(jié)構(gòu)的感知能力。
實(shí)驗(yàn)結(jié)果表明,SUMMIT在多個(gè)主流數(shù)據(jù)集上顯著優(yōu)于傳統(tǒng)方法。在目標(biāo)檢測(cè)任務(wù)中,模型在SARDet-100K數(shù)據(jù)集上的平均精度(mAP)較直接微調(diào)的ViTDet提升至少5%,尤其在港口和停機(jī)坪等密集場(chǎng)景下,能有效區(qū)分重疊目標(biāo),減少漏檢與誤檢。目標(biāo)分類任務(wù)中,模型在MSTAR數(shù)據(jù)集上展現(xiàn)卓越的小樣本學(xué)習(xí)能力:僅使用30%訓(xùn)練數(shù)據(jù)時(shí)準(zhǔn)確率達(dá)98.39%,全量數(shù)據(jù)下準(zhǔn)確率高達(dá)99.89%,超越ResNet和Swin-Transformer等主流模型。
通過(guò)注意力熱力圖分析可進(jìn)一步驗(yàn)證模型對(duì)SAR物理機(jī)制的理解。對(duì)比普通ViT模型,SUMMIT的注意力高度集中在目標(biāo)的強(qiáng)散射中心(如艦船甲板、飛機(jī)機(jī)身),而非受斑點(diǎn)噪聲干擾的背景區(qū)域。這一特性表明,輔助任務(wù)的設(shè)計(jì)成功引導(dǎo)模型聚焦于信號(hào)本質(zhì),而非噪聲干擾。
該研究證明,在垂直領(lǐng)域AI開發(fā)中,領(lǐng)域知識(shí)的深度融合至關(guān)重要。單純依賴數(shù)據(jù)規(guī)模難以解決SAR等復(fù)雜物理背景下的視覺(jué)問(wèn)題,唯有將散射機(jī)制、噪聲分布等物理特性嵌入模型設(shè)計(jì),才能實(shí)現(xiàn)真正意義上的性能突破。目前,團(tuán)隊(duì)已開源相關(guān)代碼,為SAR遙感領(lǐng)域的智能化發(fā)展提供新工具。















