AI模擬當CEO挑戰500天：多數模型折戟，Claude Fable 5成最大贏家

發布時間：2026-06-30 15:12 來源：快訊作者：胡穎

普林斯頓大學近期推出一項名為CEO-Bench的全新基準測試，通過模擬創業公司運營場景，對人工智能模型擔任企業首席執行官的能力展開系統性評估。測試結果顯示，多數參與測試的AI模型在500天模擬周期內未能維持初始資金，僅有少數模型實現盈利增長。

該測試框架構建了高度復雜的商業環境，每家虛擬企業獲得100萬美元啟動資金，需在500天運營周期內處理定價策略、預算分配、市場競爭分析等12類核心管理任務。AI智能體以周為單位制定決策，可調用34個專業工具并查詢19個業務數據庫，但需面對26個客戶群體的隱性需求——價格敏感度、質量偏好等關鍵信息均需通過訂閱數據、社交媒體反饋等間接渠道推斷。

產品質量體系設計尤為精妙，由日常研發、定向開發、基礎設施投入等8個維度共同決定。這種多變量耦合機制導致模型決策產生連鎖反應，例如增加客服投入可能提升客戶留存率，但會擠占產品開發預算。測試中，多數模型因未能平衡短期收益與長期投入，在模擬中期即出現資金鏈斷裂。

在34個參與測試的模型中，Claude Fable 5以4715萬美元期末現金領跑榜單，其三次運行結果均保持盈利狀態。Claude Opus 4.8與GPT-5.5分別以2777萬和2129萬美元位列第二、第三，但后者平均運營天數僅333.7天，顯示出較大的運營波動性。基于規則的傳統基準模型取得1580萬美元成績，證明簡單邏輯框架在特定場景下仍具競爭力。

表現欠佳的模型普遍存在決策短視問題。Grok 4.20平均僅維持28天運營，DeepSeek V4 Pro與Gemini 3 Flash也均在200天內破產。這些模型在定價策略上過度激進，或忽視客戶流失預警信號，導致資金消耗速度遠超收入增長。測試數據還顯示，模型每周執行決策輪數與最終成績無明顯關聯，Claude Fable 5僅需15.4輪即可高效決策，而某些模型30余輪操作仍難避免虧損。

研究人員指出，該測試揭示了AI在復雜商業決策中的四大短板：長期規劃能力不足、噪聲數據處理效率低下、外部變化適應遲緩、多目標協調失衡。盡管頭部模型已展現出初步的商業洞察力，但要真正替代人類管理者，仍需突破動態環境建模、隱性知識推理等關鍵技術瓶頸。

更多>同類內容