AI 赋能技术全链路

AI 赋能技术全链路：构建高可靠、可治理的生产级智能体

研发学院 AI 赋能技术全链路

Tyler

Ø 阿里任职期间，先后负责阿里云多部门算法工作，操盘过多项国家级产业项目算法工作。曾在多家世界500强企业承担人工智能技术负责人工作，具备深厚的数据智能系统研究和架构经验，实战经验覆盖包括C端B端的用户和商业化产品；

Ø 负责团队内部的技术招聘和面试工作，累计面试千人。作为阿里云的内部“布道师”参与多场内部培训。

Ø 全国信息学联赛一等奖保送并毕业于哈尔滨工业大学（C9），已发表多篇国际顶会和期刊发表学术论文；申请并已公开的国家发明专利 18 项，国际专利1项；

Ø 中国计算机学会技术前线委员会数据科学特邀讲者；

Ø 中国计算机学会（CCF）技术前线委员会（TF）委员，人工智能与模式识别会员会委员；

Ø 中国信通院标准化技术专家编委，作为主要作者参与“生成式人工智能”以及“人工智能应用安全”相关行业标准制定，致力于持续提高所负责团队以及行业的工程伦理素养。

查看老师详情

课程内容

课程大纲

第一部分：知识工程与上下文运行时（构建高可靠认知中枢）

目标：实现“认知准、证据全、执行稳、权限清”。将大模型从“概率生成器”升级为“可约束的决策系统”：先治理知识，再构建语义，再设计运行时，最终形成可审计的 OAG 决策链路。

课时：6天。授课和指导

模块一：高精度语料治理与索引策略

1.1 语料分层治理（按稳定性与风险分级）

准静态语料：制度、SOP、监管条款、产品手册（更新慢、权威高）。
动态语料：工单、日志、公告、交易流水（更新快、半衰期短）。
灰度语料：会议纪要、专家经验、外部资讯（需要可信度标注）。
为每类语料定义优先级、保鲜周期、失效规则，避免“旧知识误导新决策”。

1.2 语料质量评分体系（入库即治理）

准确性：是否与源系统一致，是否来自权威来源。
时效性：生效时间、失效时间、更新间隔是否满足业务要求。
一致性：是否与既有口径冲突，是否存在互斥条款。
合规性：是否包含敏感信息，访问授权是否完整。
低分语料不进入主检索路径，仅在人工复核模式下可见。

1.3 进阶切分与索引（减少断章取义）

Semantic Chunking：按语义边界切分，保持段落逻辑完整。
Agentic Chunking：面向任务预判切分，优先保留“条件-结论-例外”。
多分辨率索引：摘要层、段落层、证据层三级索引，兼顾召回与解释。
索引携带版本标签，确保“检索内容”与“当时有效内容”一致。

1.4 血缘追踪与版本绑定（可回放）

每条证据绑定：文档哈希、来源系统、Schema版本、Embedding版本。
增量更新与全量重建双策略：小改动增量更新，大改动全量重建。
支持线上争议回放：复现当时检索快照与答案生成路径。

模块二：Ontology 建模与 Schema-as-Code（语义孪生）

2.1 OP-LAP 语义模型（统一业务世界观）

Object：业务实体（账户、客户、合同、交易、策略）。
Property：实体属性（类型、单位、取值范围、时效）。
Link：实体关系（归属、触发、依赖、约束）。
Action：可执行动作（冻结、审批、派单、调拨）。
Policy：动作边界（权限、额度、时窗、合规红线）。

2.2 强类型与口径治理（抑制语义漂移）

属性必须定义强类型：Decimal、Enum、Datetime、ID Pattern。
统一口径：同义字段映射、冲突仲裁、跨系统命名标准。
时态治理：同一属性在不同有效期可有不同解释。

2.3 Schema-as-Code（把语义模型工程化）

使用 YAML/Pydantic 定义本体，纳入 Git 版本管理。
语义变更必须评审：新增实体、属性语义变动、策略边界调整。
每个版本绑定迁移与回滚方案，避免“语义升级不可逆”。

2.4 物理映射与影响分析（语义层不脱离现实）

SQL 表、API 字段、文档结构映射到本体属性。
物理层变更自动提示受影响实体、关系、动作与策略。
实现“语义可解释 + 物理可追溯”的双向可达。

模块三：OAG 决策链路（从概率检索到逻辑引导）

3.1 语义路由（按问题类型分流）

文本事实类优先 Text-RAG，统计分析类优先 NL2SQL，关系推理类优先 GraphRAG。
复杂问题采用多路并行召回，再做一致性融合。
路由策略可配置可审计，避免黑箱路径选择。

3.2 回答-证据强绑定（Grounded by Design）

每个结论必须绑定来源、版本、生效时窗。
输出结构统一为：答案 + 证据摘要 + 置信说明 + 约束条件。
高风险场景强制“先证据后结论”，禁止无依据推断。

3.3 证据不足处理（安全优先）

证据冲突：触发冲突仲裁或转人工。
证据缺失：拒答并返回补证建议，不进行猜测性生成。
证据过期：提示时效风险并建议刷新数据。

3.4 从回答到执行（受控动作）

Action 执行前进行 Policy 校验：权限、额度、审批链、幂等性。
执行后沉淀“动作日志 + 证据链 + 回滚点”。
支持补偿事务，防止半成功状态污染业务系统。

模块四：MPFA 与上下文工程运行时（Agent Runtime）

4.1 MPFA（元数据渐进式折叠）

将离散字段折叠为实体，再折叠为事件，最终投影到场景。
让模型优先看到与任务相关信息，降低上下文噪声。
在可解释前提下提升复杂任务推理稳定性。

4.2 Metadata Gating（四重门控）

版本门控：仅使用兼容语义版本。
时效门控：仅使用有效时间窗证据。
权限门控：按角色过滤不可见对象与属性。
一致性门控：冲突证据先仲裁，后进入模型上下文。

4.3 上下文资源化调度（成本-时延-准确性）

上下文窗口资源池化，高优先级任务优先分配。
动态压缩策略：先证据后背景，先结构后叙述。
长链任务采用分步上下文，降低一次性注入的失真风险。

4.4 故障诊断与恢复（RCA + Runbook）

常见故障：上下文污染、工具超时、路由误选、证据冲突。
诊断链路：请求ID → 路由记录 → 检索记录 → 执行动作 → 输出差异。
恢复机制：降级路径、重试策略、人工接管、自动回滚。

第二部分：规范驱动开发与智能化基座（从效率工具到工程控制面）

目标：解决“开发过程随机性、需求一致性差、产出不可验证”的核心痛点，建立 AI 参与下的标准化研发流水线。重点是把“会用模型”升级为“可控交付”：有规范、有证据、有门禁、有复盘。

课时：6天。授课和指导

模块一：AI 研发提效与 SOP 资产化体系

1.1 从对话到协议（Protocol-first）

建立统一输入协议：目标（Goal）—约束（Constraint）—上下文（Context）—完成定义（DoD）。
将一次性 Prompt 固化为可复用模板：需求澄清模板、代码改造模板、测试补齐模板、复盘模板。
形成“任务协议卡”：包含输入假设、输出边界、验收口径、风险提示，避免口头约定导致返工。

1.2 高频场景提效（工程化落地）

文档类：PRD 初稿、技术方案、接口说明、变更记录自动生成与人工校对分工。
研发类：样板代码生成、遗留代码重构建议、接口适配、批量脚手架生成。
质量类：单测补齐、边界用例扩展、异常路径覆盖、回归清单自动生成。
运维类：故障摘要、根因候选、影响面梳理、修复与回滚建议产出。

1.3 输出质量门禁（四层校验）

语法层：可编译、可执行、格式与规范一致（lint/format/type check）。
语义层：字段含义正确、逻辑分支完整、错误处理可达。
业务层：符合业务口径、规则边界、审批链约束。
NFR 层：性能、稳定性、安全、可观测性满足最低上线标准。

1.4 团队资产沉淀（可持续复用）

建立 Prompt Registry：按场景、角色、风险等级分类管理。
建立 TPM/QCL：任务协议模板（TPM）+ 质量检查清单（QCL）协同使用。
建立“案例—模板—指标”闭环：优秀案例反哺模板，模板效果进入月度指标看板。

模块二：Agentic 工作流与智能化开发插件（ClaudeCode/Copilot）

2.1 仓库级感知与变更影响分析

基于代码索引理解模块边界、调用链和依赖关系。
改动前先做影响面评估：识别高风险文件、共享组件、关键路径。
引入“变更风险分级”：低风险自动提案，中高风险强制人工审阅。

2.2 Agentic CLI 闭环（Analyze → Apply → Test → Evidence）

Analyze：读取任务协议与代码上下文，先给出可执行方案与风险点。
Apply：小步修改、可回滚提交，避免大范围一次性改动。
Test：自动执行单测/契约测试/静态检查，失败即阻断。
Evidence：输出证据包（变更说明、测试结果、影响面、回滚点）。

2.3 安全与权限控制（工程底线）

插件执行采用最小权限原则（PoLP），限制文件、命令、网络访问范围。
密钥与敏感信息防泄漏：环境变量白名单、日志脱敏、提交前扫描。
高风险操作（删除、批量重写、生产指令）设置双重确认与审计。

2.4 CI/CD 集成与发布联动

将 AI 产出纳入现有门禁：lint、test、SAST、依赖漏洞扫描。
PR 模板标准化：必须包含目标、变更点、风险说明、验证证据。
发布策略：灰度放量、自动回滚阈值、故障告警与责任归属链路。

模块三：AI 应用价值评估与需求规格化

3.1 四维价值模型（立项前先算账）

业务价值：效率提升、质量提升、风险下降是否可量化。
技术复杂度：数据可得性、系统耦合度、改造成本。
合规风险：数据权限、审计要求、模型可解释性要求。
成本收益：推理成本、运维成本、组织推广成本与回报周期。

3.2 场景分层与优先级机制

P0：高价值+低风险，优先试点快速验证。
P1：高价值+中风险，分阶段推进并设置里程碑门槛。
P2：探索性场景，限定预算与周期，明确退出条件。
形成 Go/No-Go 机制：不满足阈值不进入开发。

3.3 需求规格化（从模糊诉求到可验证需求）

将自然语言诉求拆分为：输入条件、处理规则、输出格式、异常路径。
定义可验证验收项：准确率、时延、失败率、可解释性、人工接管率。
建立“反例驱动”清单：列出最易出错场景并前置测试。

模块四：Spec-Kit SDD 规范驱动开发

4.1 SDD 第一性原理（Spec 是控制面）

先有规格再有实现：规格定义边界，代码只是实现路径。
通过规格抑制随机生成：任何 AI 产出必须可映射到 Spec 条款。
防止“看起来能用”的伪完成，强调“可验证完成”。

4.2 标准规格结构（统一语言）

目标与非目标（Goals / Non-goals）。
业务规则与边界条件（含异常与冲突处理）。
验收标准（DoD）与 NFR 指标（性能/安全/稳定性/审计）。
风险与回滚策略（触发条件、执行步骤、责任人）。

4.3 Spec-to-Code 一致性与防漂移

建立规格条款到任务卡、测试用例、代码提交的映射关系。
用自动化检查“实现是否偏离规格”：偏离即阻断合并。
每次需求变更必须先更新 Spec，再触发下游任务与测试更新。

第三部分：AIP-like Agent、多智能体协作与企业级治理（实现规模化落地）

目标：将智能体从“会回答”升级为“可执行、可观测、可审计、可放量”的企业能力。以AIP-like Agent为中枢，打通多智能体协作、端到端评估与组织化治理闭环，确保系统在高约束环境下长期稳定运行。

课时：6天。授课和指导

模块一：AIP-like架构与服务化落地

1.1 API-First 智能体契约设计

以 OpenAPI/AsyncAPI 定义能力边界：输入语义、动作意图、输出证据、错误码语义。
统一请求模型：context_id / policy_scope / intent / constraints / timeout_budget。
统一响应模型：decision / evidence_refs / confidence / risk_flags / next_actions。
区分同步决策接口与异步任务接口，避免长链任务阻塞上游系统。

1.2 事件驱动执行编排（Event-Driven）

支持 Webhook、消息总线（Kafka/Pulsar）与工作流引擎触发。
设计标准事件主题：异常交易预警、风控阈值触发、工单超时、库存告急等。
实现事件幂等：去重键、重放保护、顺序保障与死信队列回收。
引入超时预算与熔断策略，避免局部故障扩散为系统级雪崩。

1.3 执行动作的受控机制（Action Guardrails）

所有动作需通过 Policy 校验：权限、额度、时窗、审批链、合规。
高风险动作采用“双通道确认”：规则引擎 + 人工闸门。
支持补偿事务（SAGA）与回滚编排，保障跨系统一致性。
建立动作级审计日志：谁触发、依据什么证据、执行了什么、影响了哪些对象。

1.4 生产集成模式（微服务共存）

与现有微服务体系共存：网关鉴权、服务发现、熔断降级、灰度发布。
通过 BFF/Orchestrator 隔离前台渠道差异，不把业务策略耦合到 UI。
通过“能力网关”统一管理模型、工具、策略版本，降低系统耦合度。
明确故障域边界：模型故障不直接冲击交易主链，优先降级到规则路径。

模块二：多智能体协作与运行时调度

2.1 协作模式选型与职责切分

Manager-Worker：集中编排，适合高可控、强审计场景。
Mesh/Debate：分布式协商，适合复杂分析与方案对比场景。
Pipeline：串行流水线，适合固定流程（采集→分析→生成→校验）。
角色最小化原则：检索Agent、推理Agent、执行Agent、审计Agent，职责清晰可替换。

2.2 协作协议与状态机治理

采用状态机定义节点状态、转移条件、失败分支。
明确 Agent 间协议：消息格式、证据格式、重试语义、终止条件。
引入冲突仲裁节点：结果不一致时触发规则仲裁或人工复核。
对关键节点设置“不可跳过门禁”：证据缺失不得进入执行态。

2.3 资源调度与成本治理（Runtime FinOps）

对 Token、工具调用、数据库查询、图检索设置预算上限。
任务优先级驱动资源分配：高风险任务优先保障低时延链路。
对长链推理启用分段执行与中间态缓存，降低重复计算成本。
建立成本归因：按技能、团队、业务线统计单位决策成本。

2.4 可靠性工程（SRE for Agents）

SLO 设计：决策时延、成功率、证据完整率、动作失败率。
失败处理标准化：可重试错误、不可重试错误、人工接管错误分类。
演练机制：工具不可用、索引漂移、权限误配、事件风暴等故障注入。
形成运行手册：告警分级、处置流程、回滚脚本、复盘模板。

模块三：端到端评估与 Sim2Real 迁移验证

3.1 E2E 评估框架（从技术指标到业务指标）

技术指标：准确率、召回率、引用完整率、推理一致性、时延分位数。
业务指标：任务完成率、人工接管率、风险触发率、错误代价。
合规指标：越权访问率、敏感信息暴露率、审计缺失率。
统一评分函数：在 Success / Reliability / Risk / Cost 间建立可调权重。

3.2 Customer Twin 仿真体系

构建多类型仿真用户：标准用户、激进用户、异常用户、对抗用户。
注入真实约束：审批时窗、权限层级、历史行为偏好、异常轨迹。
场景库分层：常规场景、边界场景、极端场景、黑天鹅场景。
输出可对比基线：规则系统、人工流程、旧模型路径三方对照。

3.3 Sim2Real 映射与灰度放量

监测仿真与线上分布偏移：输入分布、工具稳定性、策略命中率。
建立放量闸门：达到阈值才扩流，触发阈值自动降级或回滚。
采用分层放量：低风险业务先行，高风险业务后置。
每次放量都沉淀“可复现实验报告”，防止经验化决策。

3.4 评测闭环与持续优化

线上失败样本自动回灌评测集与训练集，形成持续学习闭环。
对高频失败模式建立专项修复：路由误选、证据冲突、动作越权。
引入“回放评测”：新版本必须通过历史事故集回归。
保持“版本可比较”：同题同集评估，防止指标口径漂移。

模块四：可观测性、AI-BOM 与组织化治理

4.1 全链路可观测性（Trace-Metric-Log-Event）

统一 Trace ID 串联：请求→路由→检索→推理→动作→回执。
指标看板分层：系统健康、任务质量、风险态势、成本效率。
输出可解释证据视图：展示关键证据路径与策略命中记录。
支持“单次决策重建”：秒级定位问题节点与责任边界。

4.2 AI-BOM 审计资产体系

记录决策快照：模型版本、Prompt版本、Skill版本、Ontology版本、Policy版本。
记录外部依赖：工具版本、数据源快照、Schema版本、执行环境。
记录审批与发布轨迹：谁批准、何时发布、何时回滚。
满足审计要求：可回放、可追责、可验证“当时为何这样决策”。

4.3 生命周期治理（DevSecOps + LLMOps）

版本流程：开发→评测→审批→灰度→全量→复盘。
变更分类：语义变更、策略变更、模型变更、工具变更分级治理。
安全机制：密钥治理、最小权限、敏感数据最小暴露。
设立“治理闸门”：未通过评测与审计，不得进入生产。

4.4 组织化推广与能力认证

建立共享资产库：Spec库、Skill库、评测库、事故复盘库。
建立角色能力模型：架构师、平台工程师、评测工程师、治理负责人。
建立认证机制：理论考核 + 实操验收 + 线上值班演练。

返回上一级

课程时长

6天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级