黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領先的互聯(lián)網(wǎng)科技媒體

豆包1.8新模型發(fā)力:從屏幕理解到現(xiàn)實操控,AI“干活”新突破?

   時間:2025-12-20 15:36 來源:快訊作者:任飛揚

在人工智能領域,大模型之間的競爭愈發(fā)激烈,用戶對模型的期待也水漲船高。如今,僅憑單一優(yōu)勢已難以脫穎而出,要么在性能上實現(xiàn)斷層領先,要么能帶來前所未有的創(chuàng)新體驗。近期,豆包手機助手的發(fā)布便引發(fā)了廣泛關注,其多功能性與出色表現(xiàn),讓不少人對“AI手機”的設想有了更真切的感受。

趁熱打鐵,豆包在火山引擎的FORCE大會上,推出了全新的基礎模型——豆包大模型1.8。這一新模型的優(yōu)化方向十分明確,其目標不止于打造更強的聊天模型,而是致力于成為通用且面向真實世界的Agent代理。

豆包團隊在技術報告中展現(xiàn)出了難得的坦誠。在基礎跑分環(huán)節(jié),對于表現(xiàn)不及競爭對手的項目,他們?nèi)鐚嵆尸F(xiàn),不夸大、不回避。在編程(LiveCodeBench)、高難數(shù)學(AIME)以及硬核科學推理等領域,Google的Gemini 3-Pro目前仍是行業(yè)標桿,豆包大模型1.8在這些方面確實稍顯遜色。然而,這種“遜色”并非毫無亮點,其含金量不容小覷。

在Agent能力測試中,豆包實現(xiàn)了對Gemini的反超。在GAIA測試(模擬日常任務執(zhí)行)和BrowseComp測試(網(wǎng)上資料搜集)中,豆包新模型均取得了優(yōu)異成績。尤其值得一提的是,在搜集英文資料(BrowseComp-en)方面,作為中國公司推出的大模型,豆包的表現(xiàn)遠超GPT、Gemini、Claude等外國公司的產(chǎn)品,這一成績令人矚目。

為了更直觀地感受豆包新模型的實際能力,我們進行了一系列測試。借助字節(jié)今年開源的Agent TARS框架,我們將豆包1.8新模型的API接入其中,嘗試讓其完成一些實際任務。例如,我們讓豆包協(xié)助完成多鄰國的打卡任務。只需簡單描述需求,豆包便能在瀏覽器中自動找到多鄰國網(wǎng)址,在手動登錄賬號后,它開始識別屏幕,逐步思考并完成任務。整個過程中,我們可以實時看到豆包的思考路徑,如在完成選擇后,它會主動尋找下一步的任務按鈕。

盡管任務執(zhí)行耗時約16分鐘,速度不算快,但由于其在后臺運行,不影響其他操作,因此這一缺點并不影響其實用性。我們還讓豆包自動總結與具身智能相關的新聞并保存到本地,甚至詢問電腦型號和存儲空間剩余情況,它都能通過命令行查詢基礎信息,并以通俗易懂的語言反饋給我們。

豆包新模型的能力提升,源于多方面的技術優(yōu)化。一方面,它不斷強化對圖像的理解能力。Seed1.8在同一接口中支持搜索、代碼生成與執(zhí)行以及GUI交互,檢索到的信息、代碼運行結果和界面狀態(tài)都會納入下一步?jīng)Q策,形成閉環(huán)。團隊深知,真實環(huán)境中Agent能獲取的信息多為截圖、文字、圖標和按鈕,因此模型對屏幕的理解能力直接決定了任務完成度。

另一方面,豆包的“記性”也得到了顯著增強。視覺理解能力提升后,模型一次性理解的幀數(shù)翻倍。假設每六秒截一次屏幕,豆包能一口氣理解一小時內(nèi)的電腦操作記錄。它還能邊看視頻邊調用工具,實現(xiàn)視頻的反復回看。例如,官網(wǎng)展示的例子中,模型先快速瀏覽整個視頻,再通過VIDEOCUT工具仔細回看關鍵片段,以加深理解。我們測試時,上傳了一段高速公路上車輛行駛的視頻,讓豆包統(tǒng)計黃色車輛數(shù)量,它不僅準確找到了黃車,還標記了出現(xiàn)時間。

豆包團隊還特別關注模型“聽人話”的能力。針對大模型有時難以理解復雜指令的問題,他們進行了針對性優(yōu)化。例如,在Inverse IFeval測試集中,設計了許多“反直覺”題目。以一道類似雞兔同籠的問題為例,題目問籠子里有幾種動物,答案顯然是兩種,但這一簡單問題卻難倒了GPT,而豆包經(jīng)過思考后給出了正確答案。

豆包1.8的模型兼容性也表現(xiàn)出色。近年來,通過命令行控制電腦的AI工具層出不窮,其效果取決于任務拆解能力和模型實力。豆包在不同框架下的代碼通過率穩(wěn)定在64.8%至72.9%之間,顯示出其不挑工作環(huán)境的強大適應性。

隨著模型基礎能力的不斷提升,各AI廠商對AI發(fā)展的理解差異也逐漸顯現(xiàn)。Anthropic認為代碼即智能,DeepSeek堅持數(shù)學即智能,谷歌則強調理解即智能,而豆包的思路十分明確——Agent即智能。模型能力越強,越能操縱現(xiàn)實世界中的互聯(lián)網(wǎng),便越接近AGI的目標。

在豆包大模型的發(fā)布會上,一組數(shù)據(jù)引發(fā)了熱議:目前,豆包大模型的日均使用量已達50萬億tokens,較去年剛發(fā)布時增長了417倍。這一數(shù)字不僅體現(xiàn)了AI發(fā)展的迅猛勢頭,也反映出各行業(yè)對AI的旺盛需求。在AI浪潮中,誰能更好地滿足實際需求,誰便能在競爭中占據(jù)先機。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群