99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

百度開源Unlimited OCR新模型:創新機制助力長文檔解析,作者身份引猜測

   發布時間:2026-06-26 16:11 作者:顧雨柔

國產開源OCR領域迎來重大突破,百度最新發布的Unlimited OCR模型在長文檔處理能力上實現質的飛躍。該模型采用革命性的參考滑動窗口注意力機制(R-SWA),在OmniDocBench基準測試中以93.92%的成績刷新行業紀錄,較前代DeepSeek OCR提升6.22個百分點。

傳統OCR系統處理長文檔時普遍采用"分頁處理+結果拼接"的折中方案,這種模式如同機械抄寫員般逐頁重置上下文,導致顯存占用隨文檔長度指數級增長。Unlimited OCR突破性地將人類抄寫行為數字化:模型不再強制記憶全部歷史內容,而是像專業抄寫員那樣僅保留當前工作所需的局部信息,配合完整的視覺參考實現連續解析。

技術團隊創新性設計的R-SWA機制包含雙重注意力路徑:在視覺維度,模型始終保持對完整圖像的全局感知;在文本維度,僅保留最近128個生成Token參與注意力計算。這種"全局視覺+局部文本"的混合架構,使模型在處理40頁以上文檔時仍能保持穩定性能,Distinct-35指標高達96.90%,編輯距離控制在0.1069以下。

實驗數據顯示,該模型在生成6000個Token時,推理速度較傳統方案提升35%,且延遲波動幅度顯著降低。其核心突破在于將KV Cache設計為固定長度隊列,通過動態更新機制確保顯存占用恒定,從根本上解決了長序列處理中的內存爆炸問題。這種設計使得模型在處理超長文檔時,推理效率幾乎不受輸入長度影響。

該成果的技術輻射效應遠超OCR領域。研究團隊指出,R-SWA機制本質上是對注意力機制的重新定義,其"選擇性遺忘"設計為長上下文處理提供了全新范式。相比傳統擴容方案,這種生物仿生設計更符合人類認知規律,有望在語音識別、機器翻譯等序列處理任務中引發連鎖創新。

項目GitHub頁面披露的技術路線圖顯示,團隊正開發128K上下文版本,并探索構建"預填池"機制實現歷史狀態的按需調用。這種技術演進方向與DeepSeek OCR2形成戰略呼應,前者聚焦視覺信息的高效理解,后者深耕長序列的記憶管理,共同構建起從感知到認知的完整技術鏈條。

值得關注的是,技術報告中出現的一位匿名作者"YY"引發行業熱議。通過分析技術脈絡和代碼貢獻,多位研究者推測該神秘人物可能是OCR領域資深專家魏浩然。這位曾主導GOT-OCR2.0開發的科學家,其研究軌跡與Unlimited OCR展現的技術特征存在顯著關聯,但截至目前尚未獲得官方確認。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新