【媒體界】11月15日消息,微軟近日推出了名為“Thought Harmony”(TH)的全新方法,旨在加強人工智能(AI)模型的推理能力。這一創新靈感源自谷歌 DeepMind 的 AlphaZero,采用了緊湊的神經網絡結構。
微軟與佐治亞理工學院和華東師范大學共同合作研發了這一算法,通過整合強化學習(reinforcement learning)和蒙特卡洛樹搜索(MCTS)能力,進一步提升了模型在復雜決策環境中的解決問題效能。

據媒體界了解,微軟研究團隊表示,Thought Harmony方法可以使語言模型擴展到對其不熟悉的問題上,尤其在Game of 24、8-Puzzle和Pocket Cube等嚴苛測試中表現出顯著提升。研究結果顯示,Thought Harmony明顯優于其他方法,甚至成功解決了其他方法在某些問題上失敗的情況。然而,Thought Harmony并未達到百分之百的可靠性。

Thought Harmony框架主要包括以下關鍵步驟:
**1. 預訓練階段:** Thought Harmony在特定任務上進行預訓練,利用蒙特卡洛樹搜索(MCTS)模塊學習與有效思維搜索相關的領域知識。輕量級的策略和價值網絡指導搜索過程。
**2. 思維搜索:** 在推理過程中,預訓練的MCTS模塊使用策略/價值網絡來有效地探索和生成語言模型(LLM)的思維軌跡。
**3. 思維修正:** LLM審查MCTS的思維過程,識別任何錯誤。修正的思維是通過額外的MCTS模擬產生的。
**4. LLM推理:** 將修正后的思維提供給LLM,為解決問題提供最終的提示。
這一全新的Thought Harmony方法標志著微軟在人工智能領域的不斷創新,為AI技術的發展開辟了新的可能性。















