99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

微軟創新 XOT 方法:助力語言模型推理實力提升

   發布時間:2023-11-15 14:21

【媒體界】11月15日消息,微軟近日推出了名為“Thought Harmony”(TH)的全新方法,旨在加強人工智能(AI)模型的推理能力。這一創新靈感源自谷歌 DeepMind 的 AlphaZero,采用了緊湊的神經網絡結構。

微軟與佐治亞理工學院和華東師范大學共同合作研發了這一算法,通過整合強化學習(reinforcement learning)和蒙特卡洛樹搜索(MCTS)能力,進一步提升了模型在復雜決策環境中的解決問題效能。

據媒體界了解,微軟研究團隊表示,Thought Harmony方法可以使語言模型擴展到對其不熟悉的問題上,尤其在Game of 24、8-Puzzle和Pocket Cube等嚴苛測試中表現出顯著提升。研究結果顯示,Thought Harmony明顯優于其他方法,甚至成功解決了其他方法在某些問題上失敗的情況。然而,Thought Harmony并未達到百分之百的可靠性。

Thought Harmony框架主要包括以下關鍵步驟:

**1. 預訓練階段:** Thought Harmony在特定任務上進行預訓練,利用蒙特卡洛樹搜索(MCTS)模塊學習與有效思維搜索相關的領域知識。輕量級的策略和價值網絡指導搜索過程。

**2. 思維搜索:** 在推理過程中,預訓練的MCTS模塊使用策略/價值網絡來有效地探索和生成語言模型(LLM)的思維軌跡。

**3. 思維修正:** LLM審查MCTS的思維過程,識別任何錯誤。修正的思維是通過額外的MCTS模擬產生的。

**4. LLM推理:** 將修正后的思維提供給LLM,為解決問題提供最終的提示。

這一全新的Thought Harmony方法標志著微軟在人工智能領域的不斷創新,為AI技術的發展開辟了新的可能性。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新