Ken Jheng's workspace

從 AI 工程化的演進看 Harness Engineering

AI 應用的開發正經歷從「會說話」到「會做事」的質變。我們將這個過程拆解為三個關鍵階段，協助開發者理解重心該如何轉移：

Prompt Engineering：解決「怎麼把任務講清楚」。核心目標是透過角色設定與指令，激發模型潛在能力。適用於單輪生成或簡單問答。
Context Engineering：解決「怎麼把資訊給對」。目標是在正確時機引入 RAG（檢索增強生成）或工具回傳的動態數據。適用於依賴外部知識的任務。
Harness Engineering：解決「怎麼在真實執行中持續做對」。核心目標是建立執行保障機制，監控並糾正 AI 的多步驟行為。適用於多節點、低容錯及需自主操作工具的真實場景。

什麼是 Harness？打造 AI 的防護網

簡單來說，Harness 可以想像成是在 AI 模型外層包覆的「防護網與管理系統」。它的職責是確保 AI 在複雜的真實世界中，能穩當地完成一連串任務。一個完整的 Harness 系統通常包含以下六大核心能力：

資訊邊界管理：避免將所有資料一次塞給 AI，導致注意力渙散。例如：透過建立「資訊目錄」，讓 Agent 根據當下情境需求，主動搜尋並提取對應的檔案細節。
工具調用規範：嚴格管控工具（如 API 或瀏覽器）的使用時機，並對執行結果進行格式過濾與檢查。
執行編排（Orchestration）：定義明確的工作流路徑，包含「理解 ➔ 執行 ➔ 檢查 ➔ 修復」的循環步驟。
狀態與記憶管理：區分短期任務進度與長期記憶，防止 AI 出現「做後忘前」的記憶偏差。
獨立評估觀測：引入獨立的 Evaluator 模型擔任 QA 角色，對執行結果進行真實驗證。
錯誤恢復機制：設定自動重試邏輯，當 AI 偏離軌道或工具報錯時，能觸發回溯與自我修正程序。

提示：Harness 的本質在於將「執行環境」與「邏輯推理」解耦，讓開發者能針對錯誤進行系統性修復，而非僅僅依賴調優 Prompt。

為什麼現代 AI 開發需要 Harness？

隨著應用複雜度提升，單靠 Prompt 已無法滿足生產環境的需求，我們需要 Harness 來解決以下痛點：

對抗「上下文焦慮」

當任務執行時間拉長，AI 常因記憶負載過大而遺漏關鍵細節。Harness 透過「狀態交接」與「進程重啟」來維持精準度。例如：Anthropic 工程師曾分享利用 context reset 方法，有效解決模型因上下文溢出而導致任務提前終止的問題。

從「自我感覺良好」轉向「真實驗證」

AI 經常表現出過度的自信，即便生成錯誤的指令也難以察覺。Harness 倡導「生產與驗收分離」，在獨立的沙盒環境中驗證程式碼或操作是否真的可行，而非單聽 AI 的「口頭回報」。

結構化能力補齊

當 AI 出錯時，盲目增加 Prompt 的長度往往事倍功半。有效的解法是「補齊環境能力」，透過強化 Harness 的防錯與容錯機制，從系統架構層面提升穩定性。

總結：從溝通轉向建構

這句話精確定義了目前的趨勢：「Prompt 決定上限，Harness 決定下限。」如果我們的目標是讓 AI Agent 真正進入生產環境，開發重心就必須從優化「說話方式(prompt)」，轉向建構穩固的「執行環境與監控規則」。唯有建立強大的防護機制，才能讓 AI 在複雜的應用場景中展現真正的價值。