Google工程副總裁、Gemini模型聯合負責人Noam Shazeer在社交平臺宣布,自己將離開工作多年的Google,加入OpenAI擔任架構研究負責人。這一消息引發AI領域廣泛關注,因為Shazeer是《Attention Is All You Need》的核心作者之一,也是最早提出Transformer架構的“八人團隊”成員。從GPT到Claude,從Gemini到主流大模型,Transformer已成為現代AI的基石,而Shazeer正是定義這一底層結構的關鍵人物之一。
Shazeer的職業生涯與Google有著復雜的“分合”歷史。2000年,他作為早期軟件工程師加入Google,參與改進搜索拼寫糾錯系統。2009年,他短暫離開公司,后于2012年回歸,轉向AI研究領域。2017年,他與Ashish Vaswani等人共同提出Transformer架構,徹底改變了AI發展軌跡。2021年,因Google拒絕發布其參與開發的聊天機器人Meena,Shazeer與同事Daniel De Freitas離開公司,創辦Character.AI。2024年,Google通過約27億美元的技術授權和人才交易,將Shazeer及部分Character.AI團隊重新招攬至DeepMind,讓他參與Gemini模型研發。然而,不到兩年后,這位Gemini聯合負責人再次選擇離開,轉投OpenAI。
Shazeer的離開對Google而言是重大損失。他不僅在Transformer架構中扮演關鍵角色,還推動了稀疏混合專家模型(MoE)的發展——這種技術通過動態調用不同“專家”模塊,在擴大模型容量的同時控制計算成本,成為大模型效率優化的重要方向。他早年對聊天機器人的判斷也得到驗證:2022年ChatGPT的爆發證明,對話式AI可能成為普通人接觸AI的主要入口。而Google當年拒絕發布的Meena路線,最終以昂貴的方式回歸公司。
OpenAI首席研究官Mark Chen表示,Shazeer的加入將聚焦前沿模型架構研究。當前,大模型行業正面臨關鍵轉折點:單純擴大預訓練規模的邊際收益逐漸下降,Transformer的局限性日益顯現。例如,模型雖能處理長上下文,但難以維護穩定的內部狀態;思維鏈技術雖能提升推理能力,卻依賴昂貴的顯式計算。Google DeepMind近期論文指出,純前饋Transformer在動態狀態追蹤上存在結構性短板,更像是在“翻筆記”而非擁有持續更新的記憶。這些挑戰促使行業重新思考底層架構,尋找更高效的組織計算、維護狀態和更新世界表示的方法。
Shazeer的跳槽被視為“尋找Transformer之后下一步”的標志性事件。他不僅擁有Transformer和MoE的核心經驗,還具備大規模訓練、高效解碼和基礎模型工程的稀缺能力。在Google期間,他積累了超大規模系統架構的直覺,這種能力對前沿模型研發至關重要——從小規模實驗到大規模訓練的轉化過程中,許多改進在小模型上有效,但在最大規模訓練時可能失效,需要極強的判斷力來優化系統。















