课程大纲
第一部分:知识工程与上下文运行时(构建高可靠认知中枢)
目标:实现“认知准、证据全、执行稳、权限清”。将大模型从“概率生成器”升级为“可约束的决策系统”:先治理知识,再构建语义,再设计运行时,最终形成可审计的 OAG 决策链路。
课时:6天。授课和指导
模块一:高精度语料治理与索引策略
1.1 语料分层治理(按稳定性与风险分级)
准静态语料:制度、SOP、监管条款、产品手册(更新慢、权威高)。
动态语料:工单、日志、公告、交易流水(更新快、半衰期短)。
灰度语料:会议纪要、专家经验、外部资讯(需要可信度标注)。
为每类语料定义优先级、保鲜周期、失效规则,避免“旧知识误导新决策”。
1.2 语料质量评分体系(入库即治理)
准确性:是否与源系统一致,是否来自权威来源。
时效性:生效时间、失效时间、更新间隔是否满足业务要求。
一致性:是否与既有口径冲突,是否存在互斥条款。
合规性:是否包含敏感信息,访问授权是否完整。
低分语料不进入主检索路径,仅在人工复核模式下可见。
1.3 进阶切分与索引(减少断章取义)
Semantic Chunking:按语义边界切分,保持段落逻辑完整。
Agentic Chunking:面向任务预判切分,优先保留“条件-结论-例外”。
多分辨率索引:摘要层、段落层、证据层三级索引,兼顾召回与解释。
索引携带版本标签,确保“检索内容”与“当时有效内容”一致。
1.4 血缘追踪与版本绑定(可回放)
每条证据绑定:文档哈希、来源系统、Schema版本、Embedding版本。
增量更新与全量重建双策略:小改动增量更新,大改动全量重建。
支持线上争议回放:复现当时检索快照与答案生成路径。
模块二:Ontology 建模与 Schema-as-Code(语义孪生)
2.1 OP-LAP 语义模型(统一业务世界观)
Object:业务实体(账户、客户、合同、交易、策略)。
Property:实体属性(类型、单位、取值范围、时效)。
Link:实体关系(归属、触发、依赖、约束)。
Action:可执行动作(冻结、审批、派单、调拨)。
Policy:动作边界(权限、额度、时窗、合规红线)。
2.2 强类型与口径治理(抑制语义漂移)
属性必须定义强类型:Decimal、Enum、Datetime、ID Pattern。
统一口径:同义字段映射、冲突仲裁、跨系统命名标准。
时态治理:同一属性在不同有效期可有不同解释。
2.3 Schema-as-Code(把语义模型工程化)
使用 YAML/Pydantic 定义本体,纳入 Git 版本管理。
语义变更必须评审:新增实体、属性语义变动、策略边界调整。
每个版本绑定迁移与回滚方案,避免“语义升级不可逆”。
2.4 物理映射与影响分析(语义层不脱离现实)
SQL 表、API 字段、文档结构映射到本体属性。
物理层变更自动提示受影响实体、关系、动作与策略。
实现“语义可解释 + 物理可追溯”的双向可达。
模块三:OAG 决策链路(从概率检索到逻辑引导)
3.1 语义路由(按问题类型分流)
文本事实类优先 Text-RAG,统计分析类优先 NL2SQL,关系推理类优先 GraphRAG。
复杂问题采用多路并行召回,再做一致性融合。
路由策略可配置可审计,避免黑箱路径选择。
3.2 回答-证据强绑定(Grounded by Design)
每个结论必须绑定来源、版本、生效时窗。
输出结构统一为:答案 + 证据摘要 + 置信说明 + 约束条件。
高风险场景强制“先证据后结论”,禁止无依据推断。
3.3 证据不足处理(安全优先)
证据冲突:触发冲突仲裁或转人工。
证据缺失:拒答并返回补证建议,不进行猜测性生成。
证据过期:提示时效风险并建议刷新数据。
3.4 从回答到执行(受控动作)
Action 执行前进行 Policy 校验:权限、额度、审批链、幂等性。
执行后沉淀“动作日志 + 证据链 + 回滚点”。
支持补偿事务,防止半成功状态污染业务系统。
模块四:MPFA 与上下文工程运行时(Agent Runtime)
4.1 MPFA(元数据渐进式折叠)
将离散字段折叠为实体,再折叠为事件,最终投影到场景。
让模型优先看到与任务相关信息,降低上下文噪声。
在可解释前提下提升复杂任务推理稳定性。
4.2 Metadata Gating(四重门控)
版本门控:仅使用兼容语义版本。
时效门控:仅使用有效时间窗证据。
权限门控:按角色过滤不可见对象与属性。
一致性门控:冲突证据先仲裁,后进入模型上下文。
4.3 上下文资源化调度(成本-时延-准确性)
上下文窗口资源池化,高优先级任务优先分配。
动态压缩策略:先证据后背景,先结构后叙述。
长链任务采用分步上下文,降低一次性注入的失真风险。
4.4 故障诊断与恢复(RCA + Runbook)
常见故障:上下文污染、工具超时、路由误选、证据冲突。
诊断链路:请求ID → 路由记录 → 检索记录 → 执行动作 → 输出差异。
恢复机制:降级路径、重试策略、人工接管、自动回滚。
第二部分:规范驱动开发与智能化基座(从效率工具到工程控制面)
目标:解决“开发过程随机性、需求一致性差、产出不可验证”的核心痛点,建立 AI 参与下的标准化研发流水线。重点是把“会用模型”升级为“可控交付”:有规范、有证据、有门禁、有复盘。
课时:6天。授课和指导
模块一:AI 研发提效与 SOP 资产化体系
1.1 从对话到协议(Protocol-first)
建立统一输入协议:目标(Goal)—约束(Constraint)—上下文(Context)—完成定义(DoD)。
将一次性 Prompt 固化为可复用模板:需求澄清模板、代码改造模板、测试补齐模板、复盘模板。
形成“任务协议卡”:包含输入假设、输出边界、验收口径、风险提示,避免口头约定导致返工。
1.2 高频场景提效(工程化落地)
文档类:PRD 初稿、技术方案、接口说明、变更记录自动生成与人工校对分工。
研发类:样板代码生成、遗留代码重构建议、接口适配、批量脚手架生成。
质量类:单测补齐、边界用例扩展、异常路径覆盖、回归清单自动生成。
运维类:故障摘要、根因候选、影响面梳理、修复与回滚建议产出。
1.3 输出质量门禁(四层校验)
语法层:可编译、可执行、格式与规范一致(lint/format/type check)。
语义层:字段含义正确、逻辑分支完整、错误处理可达。
业务层:符合业务口径、规则边界、审批链约束。
NFR 层:性能、稳定性、安全、可观测性满足最低上线标准。
1.4 团队资产沉淀(可持续复用)
建立 Prompt Registry:按场景、角色、风险等级分类管理。
建立 TPM/QCL:任务协议模板(TPM)+ 质量检查清单(QCL)协同使用。
建立“案例—模板—指标”闭环:优秀案例反哺模板,模板效果进入月度指标看板。
模块二:Agentic 工作流与智能化开发插件(ClaudeCode/Copilot)
2.1 仓库级感知与变更影响分析
基于代码索引理解模块边界、调用链和依赖关系。
改动前先做影响面评估:识别高风险文件、共享组件、关键路径。
引入“变更风险分级”:低风险自动提案,中高风险强制人工审阅。
2.2 Agentic CLI 闭环(Analyze → Apply → Test → Evidence)
Analyze:读取任务协议与代码上下文,先给出可执行方案与风险点。
Apply:小步修改、可回滚提交,避免大范围一次性改动。
Test:自动执行单测/契约测试/静态检查,失败即阻断。
Evidence:输出证据包(变更说明、测试结果、影响面、回滚点)。
2.3 安全与权限控制(工程底线)
插件执行采用最小权限原则(PoLP),限制文件、命令、网络访问范围。
密钥与敏感信息防泄漏:环境变量白名单、日志脱敏、提交前扫描。
高风险操作(删除、批量重写、生产指令)设置双重确认与审计。
2.4 CI/CD 集成与发布联动
将 AI 产出纳入现有门禁:lint、test、SAST、依赖漏洞扫描。
PR 模板标准化:必须包含目标、变更点、风险说明、验证证据。
发布策略:灰度放量、自动回滚阈值、故障告警与责任归属链路。
模块三:AI 应用价值评估与需求规格化
3.1 四维价值模型(立项前先算账)
业务价值:效率提升、质量提升、风险下降是否可量化。
技术复杂度:数据可得性、系统耦合度、改造成本。
合规风险:数据权限、审计要求、模型可解释性要求。
成本收益:推理成本、运维成本、组织推广成本与回报周期。
3.2 场景分层与优先级机制
P0:高价值+低风险,优先试点快速验证。
P1:高价值+中风险,分阶段推进并设置里程碑门槛。
P2:探索性场景,限定预算与周期,明确退出条件。
形成 Go/No-Go 机制:不满足阈值不进入开发。
3.3 需求规格化(从模糊诉求到可验证需求)
将自然语言诉求拆分为:输入条件、处理规则、输出格式、异常路径。
定义可验证验收项:准确率、时延、失败率、可解释性、人工接管率。
建立“反例驱动”清单:列出最易出错场景并前置测试。
模块四:Spec-Kit SDD 规范驱动开发
4.1 SDD 第一性原理(Spec 是控制面)
先有规格再有实现:规格定义边界,代码只是实现路径。
通过规格抑制随机生成:任何 AI 产出必须可映射到 Spec 条款。
防止“看起来能用”的伪完成,强调“可验证完成”。
4.2 标准规格结构(统一语言)
目标与非目标(Goals / Non-goals)。
业务规则与边界条件(含异常与冲突处理)。
验收标准(DoD)与 NFR 指标(性能/安全/稳定性/审计)。
风险与回滚策略(触发条件、执行步骤、责任人)。
4.3 Spec-to-Code 一致性与防漂移
建立规格条款到任务卡、测试用例、代码提交的映射关系。
用自动化检查“实现是否偏离规格”:偏离即阻断合并。
每次需求变更必须先更新 Spec,再触发下游任务与测试更新。
第三部分:AIP-like Agent、多智能体协作与企业级治理(实现规模化落地)
目标:将智能体从“会回答”升级为“可执行、可观测、可审计、可放量”的企业能力。以AIP-like Agent为中枢,打通多智能体协作、端到端评估与组织化治理闭环,确保系统在高约束环境下长期稳定运行。
课时:6天。授课和指导
模块一:AIP-like架构与服务化落地
1.1 API-First 智能体契约设计
以 OpenAPI/AsyncAPI 定义能力边界:输入语义、动作意图、输出证据、错误码语义。
统一请求模型:context_id / policy_scope / intent / constraints / timeout_budget。
统一响应模型:decision / evidence_refs / confidence / risk_flags / next_actions。
区分同步决策接口与异步任务接口,避免长链任务阻塞上游系统。
1.2 事件驱动执行编排(Event-Driven)
支持 Webhook、消息总线(Kafka/Pulsar)与工作流引擎触发。
设计标准事件主题:异常交易预警、风控阈值触发、工单超时、库存告急等。
实现事件幂等:去重键、重放保护、顺序保障与死信队列回收。
引入超时预算与熔断策略,避免局部故障扩散为系统级雪崩。
1.3 执行动作的受控机制(Action Guardrails)
所有动作需通过 Policy 校验:权限、额度、时窗、审批链、合规。
高风险动作采用“双通道确认”:规则引擎 + 人工闸门。
支持补偿事务(SAGA)与回滚编排,保障跨系统一致性。
建立动作级审计日志:谁触发、依据什么证据、执行了什么、影响了哪些对象。
1.4 生产集成模式(微服务共存)
与现有微服务体系共存:网关鉴权、服务发现、熔断降级、灰度发布。
通过 BFF/Orchestrator 隔离前台渠道差异,不把业务策略耦合到 UI。
通过“能力网关”统一管理模型、工具、策略版本,降低系统耦合度。
明确故障域边界:模型故障不直接冲击交易主链,优先降级到规则路径。
模块二:多智能体协作与运行时调度
2.1 协作模式选型与职责切分
Manager-Worker:集中编排,适合高可控、强审计场景。
Mesh/Debate:分布式协商,适合复杂分析与方案对比场景。
Pipeline:串行流水线,适合固定流程(采集→分析→生成→校验)。
角色最小化原则:检索Agent、推理Agent、执行Agent、审计Agent,职责清晰可替换。
2.2 协作协议与状态机治理
采用状态机定义节点状态、转移条件、失败分支。
明确 Agent 间协议:消息格式、证据格式、重试语义、终止条件。
引入冲突仲裁节点:结果不一致时触发规则仲裁或人工复核。
对关键节点设置“不可跳过门禁”:证据缺失不得进入执行态。
2.3 资源调度与成本治理(Runtime FinOps)
对 Token、工具调用、数据库查询、图检索设置预算上限。
任务优先级驱动资源分配:高风险任务优先保障低时延链路。
对长链推理启用分段执行与中间态缓存,降低重复计算成本。
建立成本归因:按技能、团队、业务线统计单位决策成本。
2.4 可靠性工程(SRE for Agents)
SLO 设计:决策时延、成功率、证据完整率、动作失败率。
失败处理标准化:可重试错误、不可重试错误、人工接管错误分类。
演练机制:工具不可用、索引漂移、权限误配、事件风暴等故障注入。
形成运行手册:告警分级、处置流程、回滚脚本、复盘模板。
模块三:端到端评估与 Sim2Real 迁移验证
3.1 E2E 评估框架(从技术指标到业务指标)
技术指标:准确率、召回率、引用完整率、推理一致性、时延分位数。
业务指标:任务完成率、人工接管率、风险触发率、错误代价。
合规指标:越权访问率、敏感信息暴露率、审计缺失率。
统一评分函数:在 Success / Reliability / Risk / Cost 间建立可调权重。
3.2 Customer Twin 仿真体系
构建多类型仿真用户:标准用户、激进用户、异常用户、对抗用户。
注入真实约束:审批时窗、权限层级、历史行为偏好、异常轨迹。
场景库分层:常规场景、边界场景、极端场景、黑天鹅场景。
输出可对比基线:规则系统、人工流程、旧模型路径三方对照。
3.3 Sim2Real 映射与灰度放量
监测仿真与线上分布偏移:输入分布、工具稳定性、策略命中率。
建立放量闸门:达到阈值才扩流,触发阈值自动降级或回滚。
采用分层放量:低风险业务先行,高风险业务后置。
每次放量都沉淀“可复现实验报告”,防止经验化决策。
3.4 评测闭环与持续优化
线上失败样本自动回灌评测集与训练集,形成持续学习闭环。
对高频失败模式建立专项修复:路由误选、证据冲突、动作越权。
引入“回放评测”:新版本必须通过历史事故集回归。
保持“版本可比较”:同题同集评估,防止指标口径漂移。
模块四:可观测性、AI-BOM 与组织化治理
4.1 全链路可观测性(Trace-Metric-Log-Event)
统一 Trace ID 串联:请求→路由→检索→推理→动作→回执。
指标看板分层:系统健康、任务质量、风险态势、成本效率。
输出可解释证据视图:展示关键证据路径与策略命中记录。
支持“单次决策重建”:秒级定位问题节点与责任边界。
4.2 AI-BOM 审计资产体系
记录决策快照:模型版本、Prompt版本、Skill版本、Ontology版本、Policy版本。
记录外部依赖:工具版本、数据源快照、Schema版本、执行环境。
记录审批与发布轨迹:谁批准、何时发布、何时回滚。
满足审计要求:可回放、可追责、可验证“当时为何这样决策”。
4.3 生命周期治理(DevSecOps + LLMOps)
版本流程:开发→评测→审批→灰度→全量→复盘。
变更分类:语义变更、策略变更、模型变更、工具变更分级治理。
安全机制:密钥治理、最小权限、敏感数据最小暴露。
设立“治理闸门”:未通过评测与审计,不得进入生产。
4.4 组织化推广与能力认证
建立共享资产库:Spec库、Skill库、评测库、事故复盘库。
建立角色能力模型:架构师、平台工程师、评测工程师、治理负责人。
建立认证机制:理论考核 + 实操验收 + 线上值班演练。


