黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

舊金山四人團(tuán)隊(duì)另辟蹊徑:1100萬(wàn)小時(shí)視頻訓(xùn)練出通用計(jì)算機(jī)操作新模型

   時(shí)間:2026-02-25 06:40 來(lái)源:快訊作者:江紫萱

舊金山一家名為Standard Intelligence的初創(chuàng)公司,近日推出了一款名為FDM-1(前向動(dòng)力學(xué)模型)的計(jì)算機(jī)行為模型,宣稱其為“首個(gè)完全通用的計(jì)算機(jī)行為模型”。該模型在包含1100萬(wàn)小時(shí)屏幕錄制視頻的數(shù)據(jù)集上完成訓(xùn)練,能夠以每秒30幀的速率直接處理視頻流,并在CAD建模、網(wǎng)站安全測(cè)試以及真實(shí)世界的自動(dòng)駕駛場(chǎng)景中展現(xiàn)出令人矚目的泛化能力。

當(dāng)前主流的計(jì)算機(jī)使用代理技術(shù)路線主要依賴視覺(jué)語(yǔ)言模型(VLM)疊加工具調(diào)用能力。例如,Anthropic在2024年10月為Claude添加了Computer Use功能,通過(guò)截屏、界面元素識(shí)別和模擬點(diǎn)擊來(lái)操作計(jì)算機(jī)。到2026年2月,Claude Sonnet 4.6在OSWorld基準(zhǔn)測(cè)試中取得了72.5%的得分。OpenAI在2025年1月發(fā)布的Operator則基于GPT-4o的視覺(jué)能力與強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)網(wǎng)頁(yè)操控。Google DeepMind也布局了Project Mariner和Gemini 2.5 Computer Use等類似項(xiàng)目。這些巨頭的共同特點(diǎn)是通過(guò)截屏分析理解界面,本質(zhì)上仍是“看圖說(shuō)話”的思路。

Standard Intelligence認(rèn)為,這種技術(shù)路線存在局限性。他們提出,真正通用的計(jì)算機(jī)操作智能體需要直接從大規(guī)模視頻中學(xué)習(xí)人類行為模式,而非依賴截屏分類與推理。正如GPT-3需要互聯(lián)網(wǎng)規(guī)模的文本語(yǔ)料庫(kù)才能涌現(xiàn)語(yǔ)言能力,通用的計(jì)算機(jī)行為模型同樣需要互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)。目前最大的公開(kāi)計(jì)算機(jī)操作數(shù)據(jù)集不足20小時(shí)30 FPS視頻,而互聯(lián)網(wǎng)上積累了數(shù)百萬(wàn)小時(shí)的剪輯制作、編程直播、游戲?qū)崨r等操作錄像,這些數(shù)據(jù)尚未被系統(tǒng)性利用。FDM-1正是瞄準(zhǔn)這一缺口展開(kāi)研發(fā)。

該模型的技術(shù)路線與2022年OpenAI發(fā)布的VPT(視頻預(yù)訓(xùn)練)方法有相似之處。VPT通過(guò)少量人工標(biāo)注的Minecraft游戲視頻訓(xùn)練逆向動(dòng)力學(xué)模型(IDM),再利用IDM為約7萬(wàn)小時(shí)的YouTube游戲視頻自動(dòng)標(biāo)注操作標(biāo)簽,最終實(shí)現(xiàn)復(fù)雜任務(wù)的行為克隆。但VPT僅適用于特定環(huán)境,且上下文窗口極短(約六秒),難以處理需要長(zhǎng)時(shí)間連貫操作的計(jì)算機(jī)任務(wù)。FDM-1則試圖在數(shù)據(jù)規(guī)模和上下文長(zhǎng)度兩個(gè)維度上實(shí)現(xiàn)突破。

在數(shù)據(jù)規(guī)模方面,Standard Intelligence首先在4萬(wàn)小時(shí)標(biāo)注員錄屏數(shù)據(jù)上訓(xùn)練IDM,隨后用該模型為1100萬(wàn)小時(shí)互聯(lián)網(wǎng)視頻自動(dòng)標(biāo)注操作標(biāo)簽。IDM通過(guò)觀察屏幕前后幀變化反推操作動(dòng)作,例如屏幕上出現(xiàn)字母“K”可能對(duì)應(yīng)按下K鍵,光標(biāo)移動(dòng)則對(duì)應(yīng)鼠標(biāo)位移。盡管存在噪聲和歧義,但這種方法在技術(shù)上可行。團(tuán)隊(duì)采用掩碼擴(kuò)散架構(gòu)設(shè)計(jì)IDM,使其能夠同時(shí)參照所有幀推斷動(dòng)作,先標(biāo)注高置信度簡(jiǎn)單動(dòng)作,再集中處理模糊難例。據(jù)稱,這種方法比純因果模型數(shù)據(jù)效率更高,且在鼠標(biāo)移動(dòng)和界面操作等任務(wù)上的表現(xiàn)甚至優(yōu)于人工標(biāo)注數(shù)據(jù)。

在上下文長(zhǎng)度方面,突破來(lái)自團(tuán)隊(duì)自研的視頻編碼器?,F(xiàn)有VLM處理屏幕錄制視頻的方式消耗大量token,例如一分鐘30 FPS視頻約需100萬(wàn)個(gè)token,導(dǎo)致主流模型在200k token上下文窗口中僅能處理幾秒鐘視頻。Standard Intelligence的視頻編碼器聲稱能將近兩小時(shí)(約36000幀)視頻壓縮進(jìn)相同token預(yù)算,比此前最優(yōu)方案高效50倍,比OpenAI編碼器高效100倍。該編碼器通過(guò)在屏幕錄制數(shù)據(jù)上訓(xùn)練掩碼壓縮目標(biāo)實(shí)現(xiàn)這一性能,并在文本轉(zhuǎn)錄基準(zhǔn)測(cè)試中展現(xiàn)出比標(biāo)準(zhǔn)ViT快約100倍的收斂速度。

基于大規(guī)模標(biāo)注數(shù)據(jù)和高效編碼器,F(xiàn)DM-1采用標(biāo)準(zhǔn)自回歸架構(gòu)訓(xùn)練。該模型接收此前視頻幀和動(dòng)作序列,預(yù)測(cè)下一個(gè)動(dòng)作token,輸出空間包含鍵盤(pán)按鍵和鼠標(biāo)移動(dòng)增量。為處理鼠標(biāo)位移的龐大狀態(tài)空間,團(tuán)隊(duì)將其分解為X和Y分量,經(jīng)屏幕寬高歸一化后使用指數(shù)分箱映射到49個(gè)尺寸遞增的箱中。小而頻繁的移動(dòng)分入細(xì)粒度箱,大而稀少的移動(dòng)分入粗粒度箱,同時(shí)每個(gè)鼠標(biāo)移動(dòng)token附帶預(yù)測(cè)下一個(gè)點(diǎn)擊位置,以生成更精確軌跡。

與VLM路線不同,F(xiàn)DM-1完全不使用鏈?zhǔn)剿季S推理、字節(jié)對(duì)編碼或工具調(diào)用,直接在視頻和動(dòng)作token上運(yùn)作。這種設(shè)計(jì)使推理延遲降低,并使其能夠處理滾動(dòng)、3D建模、游戲操控等連續(xù)性任務(wù)。為評(píng)估模型性能,團(tuán)隊(duì)構(gòu)建了一套可運(yùn)行8萬(wàn)臺(tái)分叉虛擬機(jī)的系統(tǒng),每小時(shí)能完成超過(guò)100萬(wàn)次rollout。每臺(tái)虛擬機(jī)配備最小化Ubuntu桌面環(huán)境、1個(gè)vCPU和8GB內(nèi)存,一塊H100 GPU可同時(shí)控制42臺(tái)。分叉機(jī)制允許對(duì)操作系統(tǒng)狀態(tài)做完整內(nèi)存快照并復(fù)制到新虛擬機(jī),從而在相同起始狀態(tài)下并行運(yùn)行數(shù)千次評(píng)估。通過(guò)優(yōu)化GPU與虛擬機(jī)布局、使用低延遲VNC配置和自定義Rust輸入綁定,團(tuán)隊(duì)將屏幕截取到動(dòng)作執(zhí)行的往返延遲壓縮至11毫秒。

初步評(píng)測(cè)結(jié)果顯示,IDM標(biāo)注數(shù)據(jù)在鼠標(biāo)操作、目標(biāo)點(diǎn)擊、符號(hào)記憶和UI操控等方面的表現(xiàn)已超過(guò)人工標(biāo)注數(shù)據(jù),但在打字和語(yǔ)言理解任務(wù)上進(jìn)步較慢。團(tuán)隊(duì)認(rèn)為這是IDM標(biāo)注噪聲所致,未來(lái)計(jì)劃混合使用兩種數(shù)據(jù)。在自動(dòng)駕駛微調(diào)實(shí)驗(yàn)中,F(xiàn)DM-1在不到1小時(shí)駕駛數(shù)據(jù)上微調(diào)后,即能用方向鍵控制汽車在舊金山繞街區(qū)轉(zhuǎn)彎,起始準(zhǔn)確率為50%(在“無(wú)操作/左轉(zhuǎn)/右轉(zhuǎn)”三選一中),明顯高于僅有視頻編碼器而無(wú)互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練的基線模型。

Standard Intelligence成立于2024年3月,定位為“對(duì)齊的AGI實(shí)驗(yàn)室”。研究團(tuán)隊(duì)核心成員包括Neel Redkar、Yudhister Kumar、Devansh Pandey和Galen Mead。Neel Redkar來(lái)自UCLA,高中時(shí)期曾憑借碳捕獲金屬有機(jī)框架神經(jīng)網(wǎng)絡(luò)研究獲得ISEF大獎(jiǎng),并在Notion AI團(tuán)隊(duì)實(shí)習(xí)過(guò)。Yudhister Kumar參與過(guò)MATS 5.0項(xiàng)目,研究過(guò)預(yù)言機(jī)在合作AI中的應(yīng)用。在FDM-1之前,團(tuán)隊(duì)已開(kāi)展過(guò)兩個(gè)引人關(guān)注的項(xiàng)目:2024年中在舊金山市中心建造的30 PB存儲(chǔ)集群,用于存放9000萬(wàn)小時(shí)視頻數(shù)據(jù);2024年11月開(kāi)源的hertz-dev,一個(gè)85億參數(shù)的全雙工音頻基礎(chǔ)模型,在單張RTX 4090上實(shí)現(xiàn)了約120毫秒的實(shí)際對(duì)話延遲。這兩個(gè)項(xiàng)目分別對(duì)應(yīng)了FDM-1所需的大規(guī)模數(shù)據(jù)基礎(chǔ)設(shè)施和跨模態(tài)學(xué)習(xí)能力。

FDM-1的技術(shù)路徑與當(dāng)前行業(yè)主流形成鮮明對(duì)比。Anthropic、OpenAI和Google的計(jì)算機(jī)操控代理本質(zhì)上是“大腦外接手臂”,利用現(xiàn)有語(yǔ)言/視覺(jué)推理模型截圖、識(shí)別UI元素并生成點(diǎn)擊指令。這種方法的優(yōu)點(diǎn)是能利用通用推理能力,缺點(diǎn)是操作頻率低,難以處理高幀率連續(xù)控制任務(wù),且受限于截屏分辨率下的UI理解。FDM-1則更接近端到端行為克隆路線,直接從視頻到動(dòng)作,不經(jīng)過(guò)語(yǔ)言中介,天然擅長(zhǎng)連續(xù)控制任務(wù),但可能缺乏VLM方案的抽象推理和自然語(yǔ)言理解能力。

目前,F(xiàn)DM-1尚未成為可用產(chǎn)品。它不具備指令跟隨能力,所有演示均為模型自主探索或執(zhí)行預(yù)設(shè)行為,缺乏自然語(yǔ)言驅(qū)動(dòng)展示。團(tuán)隊(duì)也未在公開(kāi)標(biāo)準(zhǔn)化基準(zhǔn)(如OSWorld或CUB)上報(bào)告結(jié)果,所有評(píng)測(cè)基于內(nèi)部任務(wù)套件,與主流方案缺乏直接可比性。不使用語(yǔ)言模型能力遷移意味著FDM-1可能在CAD建模、游戲操控、連續(xù)滾動(dòng)瀏覽等任務(wù)上有獨(dú)特優(yōu)勢(shì),但產(chǎn)品化落地時(shí)需解決指令理解、任務(wù)規(guī)劃等問(wèn)題。未來(lái),F(xiàn)DM-1代表的路線與VLM代理路線可能會(huì)趨于融合。一個(gè)能在30 FPS下連續(xù)操控3D建模軟件的模型,若加上語(yǔ)言條件化和高級(jí)規(guī)劃模塊,或能兼得兩種路線優(yōu)點(diǎn)。在計(jì)算機(jī)行為建模領(lǐng)域,數(shù)據(jù)規(guī)模和上下文長(zhǎng)度的重要性正被重新認(rèn)識(shí),而Standard Intelligence可能是首個(gè)將這兩個(gè)要素推向極致的團(tuán)隊(duì)。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群