99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

AI模擬當CEO挑戰500天:多數模型折戟,Claude Fable 5成最大贏家

   發布時間:2026-06-30 15:12 作者:胡穎

普林斯頓大學近期推出一項名為CEO-Bench的全新基準測試,通過模擬創業公司運營場景,對人工智能模型擔任企業首席執行官的能力展開系統性評估。測試結果顯示,多數參與測試的AI模型在500天模擬周期內未能維持初始資金,僅有少數模型實現盈利增長。

該測試框架構建了高度復雜的商業環境,每家虛擬企業獲得100萬美元啟動資金,需在500天運營周期內處理定價策略、預算分配、市場競爭分析等12類核心管理任務。AI智能體以周為單位制定決策,可調用34個專業工具并查詢19個業務數據庫,但需面對26個客戶群體的隱性需求——價格敏感度、質量偏好等關鍵信息均需通過訂閱數據、社交媒體反饋等間接渠道推斷。

產品質量體系設計尤為精妙,由日常研發、定向開發、基礎設施投入等8個維度共同決定。這種多變量耦合機制導致模型決策產生連鎖反應,例如增加客服投入可能提升客戶留存率,但會擠占產品開發預算。測試中,多數模型因未能平衡短期收益與長期投入,在模擬中期即出現資金鏈斷裂。

在34個參與測試的模型中,Claude Fable 5以4715萬美元期末現金領跑榜單,其三次運行結果均保持盈利狀態。Claude Opus 4.8與GPT-5.5分別以2777萬和2129萬美元位列第二、第三,但后者平均運營天數僅333.7天,顯示出較大的運營波動性。基于規則的傳統基準模型取得1580萬美元成績,證明簡單邏輯框架在特定場景下仍具競爭力。

表現欠佳的模型普遍存在決策短視問題。Grok 4.20平均僅維持28天運營,DeepSeek V4 Pro與Gemini 3 Flash也均在200天內破產。這些模型在定價策略上過度激進,或忽視客戶流失預警信號,導致資金消耗速度遠超收入增長。測試數據還顯示,模型每周執行決策輪數與最終成績無明顯關聯,Claude Fable 5僅需15.4輪即可高效決策,而某些模型30余輪操作仍難避免虧損。

研究人員指出,該測試揭示了AI在復雜商業決策中的四大短板:長期規劃能力不足、噪聲數據處理效率低下、外部變化適應遲緩、多目標協調失衡。盡管頭部模型已展現出初步的商業洞察力,但要真正替代人類管理者,仍需突破動態環境建模、隱性知識推理等關鍵技術瓶頸。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新