紐約風險投資人Matt Turck與OpenAI后訓練負責人Yann Dubois展開了一場深度對話,圍繞人工智能領域的前沿動態展開探討。從GPT-5.5的研發細節到強化學習的突破性進展,再到行業面臨的長期挑戰,這場訪談揭示了AI技術演進背后的核心邏輯。
作為OpenAI后訓練前沿團隊的聯合負責人,Yann Dubois帶領團隊完成了GPT-5.5、o3等核心推理模型的優化工作。這位瑞士籍研究者擁有跨學科背景:在洛桑聯邦理工學院攻讀生物工程本科后,轉戰劍橋大學取得機器學習碩士學位,隨后憑借斯坦福大學計算機博士身份加入AI研究浪潮。其主導的Stanford Alpaca項目曾以不足600美元的成本復現GPT-3.5水平,而Alpacaeval評估工具至今仍是行業基準。
關于AI發展的階段性躍遷,Yann提出"可靠性臨界點"理論。他指出,當模型出錯概率降低至特定閾值后,用戶感知會發生質變。這種漸進式改進在GPT-5.5的研發中尤為明顯:該模型在發布前經歷劇烈的情緒波動,從初期興奮到中期質疑,最終通過效率提升與跨團隊協作實現突破。內部測試顯示,新模型在多數任務中的處理速度提升近兩倍,這得益于預訓練、推理優化與后訓練團隊的協同發力。
在組織架構層面,OpenAI采用縱向與橫向團隊協同模式。縱向團隊深耕特定場景如Agent編程,橫向團隊則負責通用能力整合。Yann特別強調強化學習(RL)的崛起:當模型規模突破臨界點后,RL開始展現超越監督微調(SFT)的潛力。他以數學競賽場景為例,RL通過自主探索正確路徑,有效避免了SFT可能導致的"虛構引用"問題。不過RL仍面臨歸因難題——當Agent完成長推理鏈后,難以精確追溯導致成功或失敗的關鍵步驟。
針對預訓練的未來走向,Yann反駁了"數據墻"理論。他以Anthropic的Mythos模型為例,指出單純擴大規模仍能帶來顯著性能提升。對于多模態數據的價值,他認為在具身智能成熟前,文本數據已能支撐模型獲得基礎常識。不過他承認各公司都在探索數據擴展方案,只是具體路徑屬于商業機密。
在模型能力評估方面,Yann揭示了行業困境:隨著模型超越人類平均水平,合格評估者日益稀缺。他提出的"模型即裁判"方案雖能形成能力飛輪,但評估集與訓練集的重疊問題又導致"評估保質期"縮短。這種矛盾在持續學習領域尤為突出——盡管OpenAI三年前就承諾實現個性化學習,但至今仍未突破技術瓶頸。
對于創業公司的生存空間,Yann給出明確判斷:AI通才與行業專家之間的差距,正是垂直領域的機會所在。他以法律場景為例,指出模型雖具備基礎能力,但需要領域專家設計獎勵機制并解決模糊性問題。這種觀點與Matt Turck的AI生態圖譜形成呼應——在2024年版的2011家AI企業中,大量初創公司正聚焦于模型落地的"最后一公里"工程。















