Harness Engineering ：让AIAgent在生产环境中可靠运行

研发学院 Harness Engineering ：让AIAgent在生产环境中可靠运行

李明宇

中科院计算所副教授（高级工程师）

历任国家重点实验室课题组负责人

创业公司CTO、上市公司事业群技术总监和首席技术专家

荣获中国软件协会“优秀CTO”等多项荣誉

中国新一代IT产业联盟分委会秘书长

全国高校人工智能与大数据创新联盟专家委员

北京开源创新委员会委员

中国开源软件创新大赛总决赛评委

十余年来致力于IT新技术在企业的落地，作为项目技术负责人为多家知名企业和单位开发和交付过产品及服务，包括：国家信息中心、国防科技大学、中石化、银联、交通银行、首都在线、中国电信天翼爱音乐、中国移动研究院等。

在AI大模型领域，李老师在B端和C端均有AI应用从技术研发到落地变现的闭环实践经验，自研技术 CodeGraphRAG 性能达到国际领先水平。企业客户包括电信运营商、大型上市企业、国内知名芯片公司等，受到一致好评。

查看老师详情

课程内容

课程介绍

理解HarnessEngineering的核心概念与演进脉络，建立"Agent = Model + Harness"的系统认知；

掌握Guides（前馈控制）与Sensors（反馈控制）的分类体系与工程实现方法；

结合AICoding工具与智能体落地实践，学会构建可靠的Agent驾驭体系

课程对象

架构师、AI工程师、技术负责人、核心开发人员（建议30人以内）

课程产出

Agent Harness架构设计模板、Guides/Sensors清单与落地检查表、团队Harness工程化行动方案

课程大纲

背景导入：为什么需要HarnessEngineering？

"能玩"与"能用于生产"的剪刀差：全球AIToken消耗量从2024年初到2026年3月暴增1800倍，但超过70%的企业LLMPoC走不到生产环境——缺的不是更好的模型，而是"驾驭"模型的工程能力
三代AI工程范式的演进：

Ø 2022-2024 Prompt Engineering：解决"怎么问"——优化单次交互的输入质量

Ø 2025 Context Engineering：解决"看到什么"——管理模型在一次会话中可见的信息

Ø 2026 Harness Engineering：解决"怎么运转"——让Agent跨越多次会话、自主运行时仍然可靠

里程碑事件：2026年2月，MitchellHashimoto（Terraform&Ghostty创造者）提出Agent = Model + Harness公式；随后OpenAICodex团队发布实战报告（3人团队、零人工编码、5个月100万行生产代码），MartinFowler/Thoughtworks发布Guides-Sensors分类体系

模块一：HarnessEngineering核心概念与架构

目标：建立"驾驭工程"的系统认知，理解Harness的组成要素与设计原则。

1. Agent = Model + Harness：重新理解AI Agent

核心洞见：模型提供推理能力（日益商品化），Harness提供规则、约束、数据上下文和验证机制——让模型从"灵光一现"变为"可靠交付"
Harness的定义：包裹在模型之外的完整基础设施——工具编排、状态管理、错误恢复、可观测性、多会话协调

2. Guides与Sensors：驾驭工程的两大支柱

来源：Martin Fowler / Birgitta Böckeler的分类体系

Guides（前馈控制/指南）——在Agent行动之前约束和引导

Ø 系统提示词（SystemPrompt）

Ø 项目规范文件（CLAUDE.md / AGENTS.md）

Ø 约束文档与架构规则

Ø 目的：收窄行动空间，提供结构化知识，防患于未然

Sensors（反馈控制/传感器）——在Agent行动之后观察和验证

Ø 评估（Evals）与验证循环

Ø 输出解析器（OutputParsers）

Ø 自动化测试与代码审查

Ø 目的：发现偏差，驱动自我修正

两种执行类型：

Ø 计算型（Computational）：确定性、快速——Linter、类型检查、结构化测试（毫秒~秒级）

Ø 推理型（Inferential）：语义分析、LLM-as-Judge——AI代码审查、意图校验（较慢、更贵、非确定性）

3. 研讨

回顾各自团队在AI Agent/AI Coding实践中遇到的"不可靠"问题，尝试用Guides/Sensors框架归类：哪些问题可以通过前馈控制预防？哪些需要反馈控制纠正？

模块二：Harness的工程实现——以AICoding为示范场景

目标：以AICoding场景为切入点，掌握Harness各组件的具体工程实现。

1. Guides实战：如何在Agent行动前建立约束

CLAUDE.md / AGENTS.md——项目级驾驭规范

Ø 作用：为Agent提供持久化的项目上下文——代码规范、工作流约定、架构约束

Ø 实践：如何编写有效的规范文件（好的 vs. 差的CLAUDE.md对比）

Ø "Prompt as Code"：规范文件纳入版本控制，像管理代码一样管理Agent指令

Hooks——Agent生命周期事件钩子

Ø 概念：类似GitHooks，在Agent生命周期的关键节点自动执行用户定义的命令/脚本

Ø 应用场景：文件保存时自动格式化、提交前自动检查、工具调用前权限校验

Ø 这就是"每当Agent犯一次错，就在环境中工程化一个永久修复"（MitchellHashimoto的核心习惯）

2. Sensors实战：如何在Agent行动后验证和纠偏

Linter与类型检查——计算型Sensor

Ø LLM生成代码的常见错误模式与Linter规则定制

Ø 静态强制执行：结构化日志、命名规范、文件大小限制、平台特定可靠性要求

自动化测试——Agent产出的质量底线

Ø 单元测试 + 集成测试作为Agent自测手段

Ø Commit级审查 + 里程碑级Review的双层质量保障机制

Ø 关键发现回顾：Commit级Review通过但里程碑级整体Review能发现深层问题

LLM-as-Judge——推理型Sensor

Ø 用一个模型审查另一个模型的输出

Ø AI + 人工双重CodeReview的实操流程

Ø 适用场景与局限性

可观测性（Observability）

Ø 对Agent决策过程的追踪与监控

Ø OpenLLMetry等工具：基于OpenTelemetry的LLM调用与Agent步骤追踪

Ø 与既有监控体系（Grafana、Datadog等）的集成

3. 实操演练

以一个实际项目为例，现场配置一套完整的AI Coding Harness：

Ø 编写CLAUDE.md规范文件

Ø 配置Hooks（提交前检查、工具调用审批）

Ø 设置Linter规则

Ø 运行Agent观察Harness的控制效果

对比：有Harness vs. 无Harness的Agent输出质量差异

模块三：从AICoding到通用Agent——HarnessEngineering的扩展应用

目标：将HarnessEngineering思维从AICoding场景推广到企业级Agent系统的全面治理。

1. 企业级AgentHarness架构设计

编排循环（OrchestrationLoop）

Ø TAO循环（Thought-Action-Observation）：组装提示 → 调用LLM → 解析输出 → 执行工具调用 → 结果回传 → 循环直到完成

Ø 与多智能体协作模式的结合：层级式/对等式/混合式编排中的Harness设计

工具层（ToolLayer）

Ø 工具注册、Schema验证、参数提取、沙箱执行、结果格式化

Ø 从Harness角度理解Skill：Skill即Harness中的标准化工具单元

护栏（Guardrails）设计

Ø 限制文件访问范围、要求提交前Lint、阻断破坏性命令（除非显式批准）

Ø 设计原则："先严后松"——从严格约束开始，随信心增长逐步放开

Ø 四类软件分级策略及过渡：第四类（人工值守）→第一类（全自动）对应从最严到最松的Guardrails配置

人类介入点（Human-in-the-Loop）设计

Ø 哪些操作需要人工审批：触及生产数据、修改基础设施、变更安全配置

Ø 人类的角色转变：从"写代码的人"到"在更高抽象层工作的人"——优先级排序、需求翻译为验收标准、结果验证

Ø “敏捷AI工程”中AIBP角色：AIBP本质上是Harness中Human-in-the-Loop节点的承担者

2. "熵管理"——Harness的持续维护

Agent环境的"漂移"问题：文档过时、规范偏离、工具版本不匹配
OpenAI的实践：定期"垃圾回收"扫描——用Agent检测漂移并建议修复
与3AD生命周期的对应：第四阶段"自主运营与监控"的核心任务之一

3. 实战案例复盘

OpenAI Codex团队案例：3人团队、5个月、100万行代码——Harness如何让这成为可能

Ø 分层架构 + 自定义Linter强制依赖方向

Ø 1500个已合并PR，全部由Agent生成

企业级案例：CRM重构全程中的Harness实践——里程碑驱动、Commit级与Repo级审查、版本切分
“敏捷AI工程”的大规模Harness实践：在大规模生产级智能体落地项目中，Ontology先行 + Fail Fast验证 + 周度复盘机制如何发挥Harness的作用

4. 研讨与工作坊

各组选取一个实际Agent/AICoding应用场景，设计完整的Harness方案：

Ø 列出需要的Guides清单（规范文件、Hooks、架构约束）

Ø 列出需要的Sensors清单（Linter规则、测试策略、审查流程、可观测性方案）

Ø 定义Human-in-the-Loop介入点与审批规则

Ø 设计"熵管理"机制——如何保持Harness本身不漂移

讲师点评与落地建议

模块四：落地路径与行动规划

目标：将HarnessEngineering理念转化为团队可执行的行动方案。

1. 团队Harness成熟度评估

Level 0 — 裸奔：直接使用模型，无任何系统性约束
Level 1 — 基础约束：有CLAUDE.md/AGENTS.md，有基本的Linter
Level 2 — 系统化Harness：Guides + Sensors完整覆盖，有自动化测试与审查流程
Level 3 — 自演进Harness：有"熵管理"机制，Harness随项目演进持续更新，Agent自身参与Harness维护

2. 从AICoding到组织能力的升级路径

近期（1个月）：为当前AICoding实践建立基础Harness——CLAUDE.md + Hooks + Linter
中期（2-3个月）：将Harness思维扩展到Agent项目——工具层标准化、护栏分级、可观测性建设
远期（4-6个月）：建立组织级Harness工程能力——Harness模板库、最佳实践沉淀、新角色定义

3. 新岗位与能力要求

Harness Engineer的能力模型：横跨Prompt Engineering、Context Engineering、DevOps、质量工程
与既有角色的融合：Skill封装工程师 → Harness工具层工程师、AI效能教练 → Harness成熟度教练
程序员能力转型方向的补充："架构师 + 提示词工程师 + 代码审查员" → "Harness工程师"

4. 综合研讨

各组制定团队HarnessEngineering行动方案：

Ø 当前成熟度自评

Ø 优先落地的Harness组件选择

Ø 2个月行动计划

讲师点评与Q&A

返回上一级

课程时长

1天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级