在大模型應用開發領域,Harness 正成為核心焦點。如今,借助 Harness 開展大模型創新應用恰逢其時,不過其與傳統應用開發范式差異較大,沿用舊思維難以取得理想效果,需要采用新方法才能打造出優質產品。
所謂 Harness,可理解為模型之外的工程層,涵蓋上下文管理、工具、記憶、持久化狀態、評測、循環控制、可觀測性與權限治理等內容。有標準說法稱 Agent = Model + Harness,模型負責“思考”,Harness 則讓思考具備可理解、可協作、可復現、可長期運行等特性。對于復雜的 Agent 而言,模型可能僅完成 20%的工作,剩余 80%讓產品持續可靠運行的基礎工作都依賴 Harness。這也正是“Harness 即產品”的內涵,在大模型應用中,團隊重點設計和迭代的產品往往是 Harness 這一整體。
構建基于 Harness 的優質產品,有多個關鍵要點。首先,要面向下一代模型能力設計產品。許多團隊常犯的錯誤是圍繞模型當前能力優化功能,導致產品很快被新模型替代。為避免這種情況,應進行超前定位,產品路線圖不僅要考慮模型當前能力,更要設想半年后模型能力提升后的應對策略。工程上,可先用強模型取得效果,再逐步嘗試用小模型替換;業務上,優先選擇會隨模型智能提升而放大價值的場景,如復雜決策、深度思考、跨系統調度或專業知識深入的產品。Claude Code 團隊就是按“模型將會變成什么樣”設計產品,最終取得巨大成功,其負責人給出的“別試圖把模型框死”和“押注更通用的模型”兩條原則值得思考。
其次,要做高智能產品。并非所有 AI 功能都值得投入,判斷標準是問題是否依賴模糊判斷、跨文檔理解、多步驟推理和復雜協作。應優先篩選單次任務價值高、判斷復雜度高、人工成本貴的場景,這類場景雖起步難,但一旦成功,用戶會將其視為生產力工具。而且任務越難、價值越高,模型單獨交付的比例越低,產品能否穩定上線取決于 Harness 的建設情況。
再者,有價值的 Agent 產品往往消耗較多 tokens。很多團隊想降低 token 用量,但對于高價值場景,這并非正確優化目標。在一定范圍內,token 消耗與創造價值成正比,所以對于高價值場景應舍得花。Harness 的重要任務是讓 token 花費具有經濟可核算性,可通過提示詞緩存、分層與路由、批處理和上下文重置等方式節省開銷,同時保證高價值環節的充分投入。
另外,要把上下文工程當成主任務。上下文工程旨在讓模型明確知曉不同時刻該知道、記住和遺忘的內容,而非編寫更長更巧妙的提示詞。上下文管理是 Harness 的核心,至少要將上下文拆分為系統規則、當前任務、檢索知識、用戶歷史、長期偏好、工具結果等層次,不同層次有不同的優先級、生命周期和壓縮方式。Anthropic 將其目標概括為找到“能最大化達成目標的、最小的一組高信號 token”。
工具設計也至關重要。Agent 調不好工具,常是工具設計問題。如今主流模型 Agent 能力較強,能驅動設計良好的工具集合工作,所以團隊應聚焦工具設計。工具是給模型看的產品界面,設計時要收斂工具數量,將高頻業務動作做成少數高信號、強約束的工具;使用嚴格 schema 和結構化輸出,避免自由文本傳遞錯誤指令;為關鍵工具寫清使用規則。Anthropic 強調工具描述影響調用效果,實踐表明工具過多模型易選錯,應避免“瑞士軍刀式”工具,改用單一職責、強 schema 的小工具,并在調用前做參數校驗。
用評測驅動開發也很關鍵。做 Agent 易陷入產品“差不多能工作”卻問題不斷的困境,缺乏量化評測辦法。可上線的 Agent 必須有細分任務級的量化評測體系,至少覆蓋最終答案質量、工具調用正確率、流程完成率和安全樣本通過率,還可進一步考慮邊界樣本、對抗樣本和真實線上日志回灌,將“憑感覺”改為“看數據”。Anthropic 的《Demystifying evals for AI Agents》是權威評測指南,也有多個開源框架可供參考。
最后,默認從單 Agent 開始。多 Agent 看似像組織協作,但很多有經驗團隊建議先把單 Agent 做到極致,只有當 prompt 邏輯復雜、工具集合擁擠、權限等級不同、任務目標天然分離時,再拆成多 Agent。社區中 Cognition 主張默認用單 Agent,Anthropic 則給出主從式多智能體在“讀”類開放式研究任務上效果更好的反例,這表明任務偏“讀”還是偏“寫”、能否共享上下文決定了是否拆分。















