黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

谷歌Gemini Embedding 2登場(chǎng):全模態(tài)融合,開(kāi)啟AI嵌入技術(shù)新篇章

   時(shí)間:2026-03-11 21:46 來(lái)源:快訊作者:顧雨柔

谷歌DeepMind近日宣布推出Gemini Embedding 2,這一突破性模型首次實(shí)現(xiàn)了文本、圖像、視頻、音頻和文檔五種媒體形式的原生多模態(tài)嵌入。通過(guò)將不同類型的數(shù)據(jù)統(tǒng)一映射到單一向量空間,該技術(shù)為人工智能在跨模態(tài)理解領(lǐng)域開(kāi)辟了新路徑,標(biāo)志著嵌入技術(shù)從單一模態(tài)向全模態(tài)融合的重要跨越。

該模型支持超過(guò)100種語(yǔ)言的語(yǔ)義理解,在文本、圖像和視頻任務(wù)的基準(zhǔn)測(cè)試中展現(xiàn)出超越現(xiàn)有主流模型的性能。其核心創(chuàng)新在于引入了原生語(yǔ)音處理能力,可直接將音頻數(shù)據(jù)轉(zhuǎn)換為嵌入向量,無(wú)需經(jīng)過(guò)傳統(tǒng)語(yǔ)音轉(zhuǎn)文本的中間步驟。這種端到端的處理方式顯著提升了語(yǔ)音數(shù)據(jù)的處理效率,同時(shí)保留了原始音頻中的情感、語(yǔ)調(diào)等非文本信息。

在技術(shù)架構(gòu)層面,Gemini Embedding 2基于成熟的Gemini框架擴(kuò)展而來(lái)。輸入處理能力覆蓋多種媒體類型:文本支持最長(zhǎng)8192個(gè)token;圖像可同時(shí)處理6張PNG或JPEG格式圖片;視頻支持最長(zhǎng)120秒的MP4/MOV文件;文檔則可直接嵌入最多6頁(yè)的PDF內(nèi)容。更值得關(guān)注的是,模型支持交錯(cuò)輸入模式,允許開(kāi)發(fā)者在單次請(qǐng)求中組合多種媒體類型,從而捕捉不同形式數(shù)據(jù)間的復(fù)雜語(yǔ)義關(guān)聯(lián)。

針對(duì)企業(yè)級(jí)應(yīng)用場(chǎng)景,該模型提供了靈活的向量維度配置選項(xiàng)。開(kāi)發(fā)者可根據(jù)實(shí)際需求選擇3072、1536或768三檔輸出維度,在模型性能與存儲(chǔ)成本間取得平衡。這項(xiàng)特性對(duì)于需要處理海量嵌入向量的企業(yè)尤為重要,例如構(gòu)建多模態(tài)檢索增強(qiáng)生成系統(tǒng)時(shí),可在保證精度的前提下顯著降低基礎(chǔ)設(shè)施開(kāi)銷。

在技術(shù)實(shí)現(xiàn)上,模型延續(xù)了谷歌自主研發(fā)的Matryoshka表示學(xué)習(xí)技術(shù)。該技術(shù)通過(guò)動(dòng)態(tài)壓縮向量維度的"嵌套"機(jī)制,使輸出維度可根據(jù)應(yīng)用場(chǎng)景靈活調(diào)整。這種創(chuàng)新設(shè)計(jì)既保持了高維向量的表達(dá)能力,又通過(guò)維度縮減優(yōu)化了存儲(chǔ)效率,特別適用于需要大規(guī)模部署嵌入向量的商業(yè)場(chǎng)景。

目前,Gemini Embedding 2已通過(guò)Gemini API和Vertex AI平臺(tái)開(kāi)放公開(kāi)預(yù)覽。早期訪問(wèn)合作伙伴正在探索其在多模態(tài)語(yǔ)義搜索、數(shù)據(jù)分類等領(lǐng)域的實(shí)際應(yīng)用,部分用例已展現(xiàn)出顯著的技術(shù)優(yōu)勢(shì)。隨著更多開(kāi)發(fā)者接入該模型,預(yù)計(jì)將催生出更多創(chuàng)新應(yīng)用場(chǎng)景,推動(dòng)人工智能在跨模態(tài)理解領(lǐng)域的技術(shù)演進(jìn)。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群