Transformer奠基人Noam Shazeer再跳槽：從谷歌到OpenAI，開啟AI架構新征程

發布時間：2026-06-19 07:55 來源：快訊作者：楊凌霄

Google工程副總裁、Gemini模型聯合負責人Noam Shazeer在社交平臺宣布，自己將離開工作多年的Google，加入OpenAI擔任架構研究負責人。這一消息引發AI領域廣泛關注，因為Shazeer是《Attention Is All You Need》的核心作者之一，也是最早提出Transformer架構的“八人團隊”成員。從GPT到Claude，從Gemini到主流大模型，Transformer已成為現代AI的基石，而Shazeer正是定義這一底層結構的關鍵人物之一。

Shazeer的職業生涯與Google有著復雜的“分合”歷史。2000年，他作為早期軟件工程師加入Google，參與改進搜索拼寫糾錯系統。2009年，他短暫離開公司，后于2012年回歸，轉向AI研究領域。2017年，他與Ashish Vaswani等人共同提出Transformer架構，徹底改變了AI發展軌跡。2021年，因Google拒絕發布其參與開發的聊天機器人Meena，Shazeer與同事Daniel De Freitas離開公司，創辦Character.AI。2024年，Google通過約27億美元的技術授權和人才交易，將Shazeer及部分Character.AI團隊重新招攬至DeepMind，讓他參與Gemini模型研發。然而，不到兩年后，這位Gemini聯合負責人再次選擇離開，轉投OpenAI。

Shazeer的離開對Google而言是重大損失。他不僅在Transformer架構中扮演關鍵角色，還推動了稀疏混合專家模型（MoE）的發展——這種技術通過動態調用不同“專家”模塊，在擴大模型容量的同時控制計算成本，成為大模型效率優化的重要方向。他早年對聊天機器人的判斷也得到驗證：2022年ChatGPT的爆發證明，對話式AI可能成為普通人接觸AI的主要入口。而Google當年拒絕發布的Meena路線，最終以昂貴的方式回歸公司。

OpenAI首席研究官Mark Chen表示，Shazeer的加入將聚焦前沿模型架構研究。當前，大模型行業正面臨關鍵轉折點：單純擴大預訓練規模的邊際收益逐漸下降，Transformer的局限性日益顯現。例如，模型雖能處理長上下文，但難以維護穩定的內部狀態；思維鏈技術雖能提升推理能力，卻依賴昂貴的顯式計算。Google DeepMind近期論文指出，純前饋Transformer在動態狀態追蹤上存在結構性短板，更像是在“翻筆記”而非擁有持續更新的記憶。這些挑戰促使行業重新思考底層架構，尋找更高效的組織計算、維護狀態和更新世界表示的方法。

Shazeer的跳槽被視為“尋找Transformer之后下一步”的標志性事件。他不僅擁有Transformer和MoE的核心經驗，還具備大規模訓練、高效解碼和基礎模型工程的稀缺能力。在Google期間，他積累了超大規模系統架構的直覺，這種能力對前沿模型研發至關重要——從小規模實驗到大規模訓練的轉化過程中，許多改進在小模型上有效，但在最大規模訓練時可能失效，需要極強的判斷力來優化系統。

更多>同類內容