研究團隊指出,喬布斯所展現的“戰略智能”是一種能夠制定方向、協調資源并引導組織實現長期目標的能力。然而,當前大多數AI智能體在編程、寫作等單項任務上表現出色,卻缺乏這種在復雜環境中持續決策和統籌資源的能力。為了彌補這一差距,CEO-Bench應運而生,成為衡量AI“戰略智能”的首個基準測試。
CEO-Bench的核心在于模擬一個長達500天的AI創業公司環境。每個AI模型獲得100萬美元的啟動資金,通過可編程接口管理一家初創企業,可以訪問企業管理工具、商業數據庫和社交媒體等資源。在充滿噪聲、信息不完全且市場持續變化的商業環境中,AI需要自主決策,最終以企業現金余額作為衡量表現的核心指標。
為了確保測試的真實性和嚴謹性,研究團隊設計了一個高度細粒度的市場環境,包含26類不同客戶群體,每位客戶都有獨立的行為和偏好。所有經營結果均由明確的商業規則驅動,而非依賴主觀評分。AI無法直接獲取關鍵信息,如客戶滿意度和市場需求,必須通過間接信號進行推斷。商業環境是動態變化的,競爭對手會調整策略,客戶偏好會變化,宏觀經濟周期也會帶來新的挑戰。
在具體實現上,AI智能體通過Python調用novamind_api包執行操作,并可以搭建復雜的業務流程與自動化系統。系統提供了高度細粒度的動作空間,智能體可以針對不同渠道、用戶群組和經營計劃執行精確干預。數據層面,CEO-Bench構建了一個包含19張數據表的企業數據庫,智能體必須通過類似真實商業分析的流程進行信息檢索與決策支持。社交媒體也被納入模擬環境,智能體的發布與互動行為會影響用戶獲取和品牌擴散效果。
測試結果顯示,大多數當前最先進的大模型難以在500天的模擬中避免公司破產。在參測模型中,Claude Fable 5、Claude Opus 4.8和GPT-5.5在各自最佳的一次運行中,最終現金余額超過了初始資金。其中,Claude Fable 5是唯一一個在多次測試中都能實現資金高于初始水平的模型。相比之下,Qwen 3.7 Max、Claude Opus 4.7、Kimi K2.6、GLM 5.2和Claude Sonnet 4.6雖然保持了正現金流,但現金余額均低于啟動資金。作為對照,基于規則的基線系統最終將現金余額提升至1580萬美元。
研究團隊進一步分析了模型的決策過程,發現能力更強的模型往往擁有更廣泛的策略探索能力,并能夠根據環境變化持續調整經營策略。例如,GPT-5.5會隨著市場變化不斷調整獲客、產品研發和定價等策略,而Claude Opus 4.8則會在前期積極嘗試多種策略,后期逐步收斂到穩定模式。相比之下,Claude Opus 4.7更容易陷入保守決策,傾向于圍繞現金保全展開經營。
表現更好的模型更善于開展面向特定客戶群體的精細化產品開發。數據顯示,GPT-5.5有89%的研發投入用于定向開發,Claude Opus 4.8為87%,而Claude Opus 4.7僅為44%,Kimi K2.6更是只有10%。領先模型更傾向于利用精細化策略,而不是單純依賴通用產品研發。
從決策方式來看,領先模型展現出更強的前瞻性。Claude Opus 4.8和GPT-5.5在經營備忘錄中更頻繁使用條件判斷,提前設定未來可能出現的經營情景,并預先規劃應對措施。兩款模型還會主動編寫輔助代碼來支持經營決策,例如模擬未來現金流或分析客戶隱藏偏好。研究團隊認為,這種主動構建分析工具和預測未來的能力,是高表現模型的重要特征。















