美女打开小穴让男生操的视频,粉嫩大学生无套内射无码卡视频

舊金山一家名為Standard Intelligence的初創(chuàng)公司，近日推出了一款名為FDM-1（前向動(dòng)力學(xué)模型）的計(jì)算機(jī)行為模型，宣稱其為“首個(gè)完全通用的計(jì)算機(jī)行為模型”。該模型在包含1100萬(wàn)小時(shí)屏幕錄制視頻的數(shù)據(jù)集上完成訓(xùn)練，能夠以每秒30幀的速率直接處理視頻流，并在CAD建模、網(wǎng)站安全測(cè)試以及真實(shí)世界的自動(dòng)駕駛場(chǎng)景中展現(xiàn)出令人矚目的泛化能力。

當(dāng)前主流的計(jì)算機(jī)使用代理技術(shù)路線主要依賴視覺(jué)語(yǔ)言模型（VLM）疊加工具調(diào)用能力。例如，Anthropic在2024年10月為Claude添加了Computer Use功能，通過(guò)截屏、界面元素識(shí)別和模擬點(diǎn)擊來(lái)操作計(jì)算機(jī)。到2026年2月，Claude Sonnet 4.6在OSWorld基準(zhǔn)測(cè)試中取得了72.5%的得分。OpenAI在2025年1月發(fā)布的Operator則基于GPT-4o的視覺(jué)能力與強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)網(wǎng)頁(yè)操控。Google DeepMind也布局了Project Mariner和Gemini 2.5 Computer Use等類似項(xiàng)目。這些巨頭的共同特點(diǎn)是通過(guò)截屏分析理解界面，本質(zhì)上仍是“看圖說(shuō)話”的思路。

Standard Intelligence認(rèn)為，這種技術(shù)路線存在局限性。他們提出，真正通用的計(jì)算機(jī)操作智能體需要直接從大規(guī)模視頻中學(xué)習(xí)人類行為模式，而非依賴截屏分類與推理。正如GPT-3需要互聯(lián)網(wǎng)規(guī)模的文本語(yǔ)料庫(kù)才能涌現(xiàn)語(yǔ)言能力，通用的計(jì)算機(jī)行為模型同樣需要互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)。目前最大的公開(kāi)計(jì)算機(jī)操作數(shù)據(jù)集不足20小時(shí)30 FPS視頻，而互聯(lián)網(wǎng)上積累了數(shù)百萬(wàn)小時(shí)的剪輯制作、編程直播、游戲?qū)崨r等操作錄像，這些數(shù)據(jù)尚未被系統(tǒng)性利用。FDM-1正是瞄準(zhǔn)這一缺口展開(kāi)研發(fā)。

該模型的技術(shù)路線與2022年OpenAI發(fā)布的VPT（視頻預(yù)訓(xùn)練）方法有相似之處。VPT通過(guò)少量人工標(biāo)注的Minecraft游戲視頻訓(xùn)練逆向動(dòng)力學(xué)模型（IDM），再利用IDM為約7萬(wàn)小時(shí)的YouTube游戲視頻自動(dòng)標(biāo)注操作標(biāo)簽，最終實(shí)現(xiàn)復(fù)雜任務(wù)的行為克隆。但VPT僅適用于特定環(huán)境，且上下文窗口極短（約六秒），難以處理需要長(zhǎng)時(shí)間連貫操作的計(jì)算機(jī)任務(wù)。FDM-1則試圖在數(shù)據(jù)規(guī)模和上下文長(zhǎng)度兩個(gè)維度上實(shí)現(xiàn)突破。

在數(shù)據(jù)規(guī)模方面，Standard Intelligence首先在4萬(wàn)小時(shí)標(biāo)注員錄屏數(shù)據(jù)上訓(xùn)練IDM，隨后用該模型為1100萬(wàn)小時(shí)互聯(lián)網(wǎng)視頻自動(dòng)標(biāo)注操作標(biāo)簽。IDM通過(guò)觀察屏幕前后幀變化反推操作動(dòng)作，例如屏幕上出現(xiàn)字母“K”可能對(duì)應(yīng)按下K鍵，光標(biāo)移動(dòng)則對(duì)應(yīng)鼠標(biāo)位移。盡管存在噪聲和歧義，但這種方法在技術(shù)上可行。團(tuán)隊(duì)采用掩碼擴(kuò)散架構(gòu)設(shè)計(jì)IDM，使其能夠同時(shí)參照所有幀推斷動(dòng)作，先標(biāo)注高置信度簡(jiǎn)單動(dòng)作，再集中處理模糊難例。據(jù)稱，這種方法比純因果模型數(shù)據(jù)效率更高，且在鼠標(biāo)移動(dòng)和界面操作等任務(wù)上的表現(xiàn)甚至優(yōu)于人工標(biāo)注數(shù)據(jù)。

在上下文長(zhǎng)度方面，突破來(lái)自團(tuán)隊(duì)自研的視頻編碼器?，F(xiàn)有VLM處理屏幕錄制視頻的方式消耗大量token，例如一分鐘30 FPS視頻約需100萬(wàn)個(gè)token，導(dǎo)致主流模型在200k token上下文窗口中僅能處理幾秒鐘視頻。Standard Intelligence的視頻編碼器聲稱能將近兩小時(shí)（約36000幀）視頻壓縮進(jìn)相同token預(yù)算，比此前最優(yōu)方案高效50倍，比OpenAI編碼器高效100倍。該編碼器通過(guò)在屏幕錄制數(shù)據(jù)上訓(xùn)練掩碼壓縮目標(biāo)實(shí)現(xiàn)這一性能，并在文本轉(zhuǎn)錄基準(zhǔn)測(cè)試中展現(xiàn)出比標(biāo)準(zhǔn)ViT快約100倍的收斂速度。

基于大規(guī)模標(biāo)注數(shù)據(jù)和高效編碼器，F(xiàn)DM-1采用標(biāo)準(zhǔn)自回歸架構(gòu)訓(xùn)練。該模型接收此前視頻幀和動(dòng)作序列，預(yù)測(cè)下一個(gè)動(dòng)作token，輸出空間包含鍵盤(pán)按鍵和鼠標(biāo)移動(dòng)增量。為處理鼠標(biāo)位移的龐大狀態(tài)空間，團(tuán)隊(duì)將其分解為X和Y分量，經(jīng)屏幕寬高歸一化后使用指數(shù)分箱映射到49個(gè)尺寸遞增的箱中。小而頻繁的移動(dòng)分入細(xì)粒度箱，大而稀少的移動(dòng)分入粗粒度箱，同時(shí)每個(gè)鼠標(biāo)移動(dòng)token附帶預(yù)測(cè)下一個(gè)點(diǎn)擊位置，以生成更精確軌跡。

與VLM路線不同，F(xiàn)DM-1完全不使用鏈?zhǔn)剿季S推理、字節(jié)對(duì)編碼或工具調(diào)用，直接在視頻和動(dòng)作token上運(yùn)作。這種設(shè)計(jì)使推理延遲降低，并使其能夠處理滾動(dòng)、3D建模、游戲操控等連續(xù)性任務(wù)。為評(píng)估模型性能，團(tuán)隊(duì)構(gòu)建了一套可運(yùn)行8萬(wàn)臺(tái)分叉虛擬機(jī)的系統(tǒng)，每小時(shí)能完成超過(guò)100萬(wàn)次rollout。每臺(tái)虛擬機(jī)配備最小化Ubuntu桌面環(huán)境、1個(gè)vCPU和8GB內(nèi)存，一塊H100 GPU可同時(shí)控制42臺(tái)。分叉機(jī)制允許對(duì)操作系統(tǒng)狀態(tài)做完整內(nèi)存快照并復(fù)制到新虛擬機(jī)，從而在相同起始狀態(tài)下并行運(yùn)行數(shù)千次評(píng)估。通過(guò)優(yōu)化GPU與虛擬機(jī)布局、使用低延遲VNC配置和自定義Rust輸入綁定，團(tuán)隊(duì)將屏幕截取到動(dòng)作執(zhí)行的往返延遲壓縮至11毫秒。

初步評(píng)測(cè)結(jié)果顯示，IDM標(biāo)注數(shù)據(jù)在鼠標(biāo)操作、目標(biāo)點(diǎn)擊、符號(hào)記憶和UI操控等方面的表現(xiàn)已超過(guò)人工標(biāo)注數(shù)據(jù)，但在打字和語(yǔ)言理解任務(wù)上進(jìn)步較慢。團(tuán)隊(duì)認(rèn)為這是IDM標(biāo)注噪聲所致，未來(lái)計(jì)劃混合使用兩種數(shù)據(jù)。在自動(dòng)駕駛微調(diào)實(shí)驗(yàn)中，F(xiàn)DM-1在不到1小時(shí)駕駛數(shù)據(jù)上微調(diào)后，即能用方向鍵控制汽車在舊金山繞街區(qū)轉(zhuǎn)彎，起始準(zhǔn)確率為50%（在“無(wú)操作/左轉(zhuǎn)/右轉(zhuǎn)”三選一中），明顯高于僅有視頻編碼器而無(wú)互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練的基線模型。

Standard Intelligence成立于2024年3月，定位為“對(duì)齊的AGI實(shí)驗(yàn)室”。研究團(tuán)隊(duì)核心成員包括Neel Redkar、Yudhister Kumar、Devansh Pandey和Galen Mead。Neel Redkar來(lái)自UCLA，高中時(shí)期曾憑借碳捕獲金屬有機(jī)框架神經(jīng)網(wǎng)絡(luò)研究獲得ISEF大獎(jiǎng)，并在Notion AI團(tuán)隊(duì)實(shí)習(xí)過(guò)。Yudhister Kumar參與過(guò)MATS 5.0項(xiàng)目，研究過(guò)預(yù)言機(jī)在合作AI中的應(yīng)用。在FDM-1之前，團(tuán)隊(duì)已開(kāi)展過(guò)兩個(gè)引人關(guān)注的項(xiàng)目：2024年中在舊金山市中心建造的30 PB存儲(chǔ)集群，用于存放9000萬(wàn)小時(shí)視頻數(shù)據(jù)；2024年11月開(kāi)源的hertz-dev，一個(gè)85億參數(shù)的全雙工音頻基礎(chǔ)模型，在單張RTX 4090上實(shí)現(xiàn)了約120毫秒的實(shí)際對(duì)話延遲。這兩個(gè)項(xiàng)目分別對(duì)應(yīng)了FDM-1所需的大規(guī)模數(shù)據(jù)基礎(chǔ)設(shè)施和跨模態(tài)學(xué)習(xí)能力。

FDM-1的技術(shù)路徑與當(dāng)前行業(yè)主流形成鮮明對(duì)比。Anthropic、OpenAI和Google的計(jì)算機(jī)操控代理本質(zhì)上是“大腦外接手臂”，利用現(xiàn)有語(yǔ)言/視覺(jué)推理模型截圖、識(shí)別UI元素并生成點(diǎn)擊指令。這種方法的優(yōu)點(diǎn)是能利用通用推理能力，缺點(diǎn)是操作頻率低，難以處理高幀率連續(xù)控制任務(wù)，且受限于截屏分辨率下的UI理解。FDM-1則更接近端到端行為克隆路線，直接從視頻到動(dòng)作，不經(jīng)過(guò)語(yǔ)言中介，天然擅長(zhǎng)連續(xù)控制任務(wù)，但可能缺乏VLM方案的抽象推理和自然語(yǔ)言理解能力。

目前，F(xiàn)DM-1尚未成為可用產(chǎn)品。它不具備指令跟隨能力，所有演示均為模型自主探索或執(zhí)行預(yù)設(shè)行為，缺乏自然語(yǔ)言驅(qū)動(dòng)展示。團(tuán)隊(duì)也未在公開(kāi)標(biāo)準(zhǔn)化基準(zhǔn)（如OSWorld或CUB）上報(bào)告結(jié)果，所有評(píng)測(cè)基于內(nèi)部任務(wù)套件，與主流方案缺乏直接可比性。不使用語(yǔ)言模型能力遷移意味著FDM-1可能在CAD建模、游戲操控、連續(xù)滾動(dòng)瀏覽等任務(wù)上有獨(dú)特優(yōu)勢(shì)，但產(chǎn)品化落地時(shí)需解決指令理解、任務(wù)規(guī)劃等問(wèn)題。未來(lái)，F(xiàn)DM-1代表的路線與VLM代理路線可能會(huì)趨于融合。一個(gè)能在30 FPS下連續(xù)操控3D建模軟件的模型，若加上語(yǔ)言條件化和高級(jí)規(guī)劃模塊，或能兼得兩種路線優(yōu)點(diǎn)。在計(jì)算機(jī)行為建模領(lǐng)域，數(shù)據(jù)規(guī)模和上下文長(zhǎng)度的重要性正被重新認(rèn)識(shí)，而Standard Intelligence可能是首個(gè)將這兩個(gè)要素推向極致的團(tuán)隊(duì)。

蘿卜快跑香港再突破：機(jī)場(chǎng)島至東涌跨區(qū)貫通	雷軍劉強(qiáng)東馬云周鴻祎齊聚，千尋智能成具身
寄快遞怕被坑？8家主流物流實(shí)測(cè)比價(jià)+3個(gè)省	科技與豪華交融：2026款?yuàn)W迪E5 Sportback智

舊金山四人團(tuán)隊(duì)另辟蹊徑：1100萬(wàn)小時(shí)視頻訓(xùn)練出通用計(jì)算機(jī)操作新模型