黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

DeepSeek-OCR 2開源登場(chǎng):以視覺因果流開啟文檔理解新范式

   時(shí)間:2026-01-27 20:59 來(lái)源:互聯(lián)網(wǎng)作者:鐘景軒

深度求索團(tuán)隊(duì)近日宣布開源新一代文檔理解模型DeepSeek-OCR 2,并同步發(fā)布技術(shù)論文《DeepSeek-OCR 2: Visual Causal Flow》。該模型在綜合性文檔理解基準(zhǔn)OmniDocBench v1.5測(cè)試中取得91.09%的突破性成績(jī),較前代提升3.73個(gè)百分點(diǎn),尤其在復(fù)雜文檔的邏輯順序還原能力上實(shí)現(xiàn)質(zhì)的飛躍。

傳統(tǒng)OCR技術(shù)采用"機(jī)械掃描"式處理方式,通過固定網(wǎng)格切割圖像后按空間順序識(shí)別文字。這種模式在處理學(xué)術(shù)論文、金融報(bào)表等多欄排版文檔時(shí),常出現(xiàn)邏輯斷裂、語(yǔ)義關(guān)聯(lián)丟失等問題。DeepSeek-OCR 2通過引入"視覺因果流"編碼范式,使模型具備自主推理文檔結(jié)構(gòu)的能力,實(shí)現(xiàn)從"機(jī)械掃描"到"智能閱讀"的認(rèn)知升級(jí)。

新模型的核心創(chuàng)新在于DeepEncoder V2架構(gòu),該架構(gòu)通過三階段處理流程重構(gòu)文檔理解邏輯:首先利用雙向注意力機(jī)制建立全局視覺感知,繼而通過因果流查詢組件動(dòng)態(tài)推導(dǎo)最優(yōu)閱讀順序,最終將高維視覺信息壓縮為富含語(yǔ)義的視覺標(biāo)記序列。這種處理方式使模型輸出的視覺序列自帶因果順序特征,為后續(xù)語(yǔ)言解碼提供結(jié)構(gòu)清晰的"思考藍(lán)圖"。

在性能表現(xiàn)上,DeepSeek-OCR 2展現(xiàn)出顯著優(yōu)勢(shì)。其視覺標(biāo)記壓縮率較前代提升40%,僅需256-1120個(gè)標(biāo)記即可精準(zhǔn)表示復(fù)雜文檔內(nèi)容,大幅降低下游計(jì)算負(fù)擔(dān)。在學(xué)術(shù)論文、財(cái)務(wù)報(bào)表等場(chǎng)景測(cè)試中,模型不僅能準(zhǔn)確識(shí)別文字,更能還原段落間的邏輯關(guān)系,輸出文本可直接用于分析歸檔。標(biāo)準(zhǔn)化編輯距離指標(biāo)提升33%,證明其在閱讀順序準(zhǔn)確性上的突破性進(jìn)展。

技術(shù)團(tuán)隊(duì)指出,該模型的價(jià)值不僅限于OCR領(lǐng)域。其驗(yàn)證的因果流機(jī)制為多模態(tài)AI架構(gòu)提供新思路——未來(lái)模型或可通過類似機(jī)制,自主理解文本、圖像、音視頻等不同模態(tài)信息的內(nèi)在結(jié)構(gòu),生成統(tǒng)一的語(yǔ)義表示。這種處理方式更接近人類認(rèn)知模式,有望推動(dòng)跨模態(tài)理解與生成技術(shù)發(fā)展。

當(dāng)前模型在極端密集文本場(chǎng)景(如古典報(bào)紙)的識(shí)別效果仍有優(yōu)化空間。研究團(tuán)隊(duì)表示將持續(xù)改進(jìn)模型魯棒性,同時(shí)探索因果流機(jī)制在更多模態(tài)領(lǐng)域的應(yīng)用可能性。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群