课程收益
工程确定性:掌握 Spec-Kit SDD,实现从模糊意图到可验证规格(Verifiable Spec)的精准转化。
认知深度对齐:理解“元数据渐进式折叠”原理,解决大规模异构数据下的知识索引与推理冲突。
运行时调度:掌握上下文工程与 MCP,构建具备资源感知、容错与优先级调度的 Agent 运行时。
模型深度应用:掌握意图识别微调、参数提取优化及语料治理的全链路工程。
仿真评估体系:通过“客户建模智能体”实现 Sim2Real 迁移验证,打通离线评测与线上表现的鸿沟。
组织级治理:构建 AI-BOM 审计体系,建立可度量、可对齐、可审计的 AI 研发闭环。
课程目标
面向具备 LLM 开发经验的资深工程师、架构师及技术管理者。本课程深度聚焦 “架构确定性” 与 “工程可靠性”。以“规范驱动开发—上下文资源化—元数据深度对齐—Sim2Real 自动化评估”为核心方法论,攻克金融科技等高约束场景下智能体系统不可预测、难治理、难以规模化的工程难题。
课程大纲
第一部分:规范驱动开发与智能化基座(从效率工具到工程控制面)
目标:解决“开发过程随机性、需求一致性差、产出不可验证”的核心痛点,建立 AI 参与下的标准化研发流水线。
模块一:AI 研发提效与 SOP 资产化体系
1.1 从对话到协议:构建“目标-约束-上下文-DoD”标准输入协议,将一次性对话转化为可复用的 SOP 资产。
1.2 全链路高频场景:深挖文档自动生成、契约测试补齐、多语种代码评审、故障根因自动化分析。
1.3 输出质量控制门禁:建立“语法-语义-业务逻辑-NFR(非功能性需求)”四层级联校验机制。
1.4 团队知识沉淀:企业级提示词库(Prompt Registry)、任务协议模板(TPM)与质量检查清单(QCL)建设。
模块二:Agentic 工作流与智能化开发插件(ClaudeCode/Copilot)
2.1 仓库级感知架构:符号关系图谱、全局依赖分析、跨文件变更影响面评估原理。
2.2 Agentic CLI 深度实践:基于 Analyze → Apply → Test → Evidence 的闭环工作流,实现小步提交与自动回滚。
2.3 企业级安全网关:文件系统/命令执行的沙箱化、密钥过滤、最小权限原则(PoLP)在插件中的落地。
2.4 CI/CD 集成闭环:AI 生成代码的自动化评审门禁、契约校验与发布联动。
模块三:AI 应用价值评估与需求规格化
3.1 四维价值度量模型:业务增量、技术复杂度、合规风险、推理成本收益比(ROI)。
3.2 场景对齐机制:建立业务专家、产品经理与研发团队对“意图达成率”的统一认知。
3.3 需求规格化实战:将模糊业务诉求转化为原子化、可验证、无二义性的需求规格。
模块四:Spec-Kit SDD 规范驱动开发
4.1 SDD 第一性原理:以 Spec 作为控制变量,通过规格约束抑制 LLM 生成的随机性与熵增。
4.2 标准规格定义:涵盖目标、Non-Goals、边界条件、NFR 与风险控制的标准化文档体系。
4.3 Spec-to-Code 一致性:利用 AI 自动检查代码实现是否偏离规格书,建立防漂移机制。
第二部分:知识工程与上下文运行时(构建高可靠认知中枢)
目标:实现“认知准、状态稳、资源可控”,构建生产级的智能体感知与执行框架。
模块五:高精度数据治理与索引策略
5.1 语义化分块进阶:Semantic Chunking 与 Agentic Chunking 结合,保持文档逻辑完整性。
5.2 领域嵌入优化:领域词汇适配、嵌入微调(Fine-tuning Embedding)与 Matryoshka 表示学习。
5.3 数据血缘与版本:语料质量分级管理、增量更新策略与索引重建回滚机制。
模块六:混合检索与上下文重塑
6.1 查询增强闭环:HyDE、Step-Back Prompting 与多路径查询生成的工程化实现。
6.2 混合检索调度:BM25 + 向量检索的权重自适应调优(Rerank 策略)。
6.3 上下文降噪与压缩:解决 Lost in the Middle 问题,实现上下文关键信息摘要与证据溯源。
模块七:异构知识融合与多模态执行
6.1 智能路由层:基于意图的动态分流(RAG vs. NL2SQL vs. GraphRAG)。
6.2 实用 GraphRAG:知识图谱在多跳推理与复杂实体关联场景下的工程落地。
6.3 安全工具调用:NL2SQL 的 Schema 权限隔离、复杂 JOIN 校验与防注入策略。
模块八:上下文工程与运行时调度(Agent Runtime)
8.1 资源化调度管理:将上下文窗口视作系统资源,建立成本-延迟-准确性的权衡调度框架。
8.2 故障模式诊断:针对上下文漂移、污染、冲突及工具执行错误的根因分析(RCA)。
8.3 分层记忆模型:短程 Episodic 记忆与长程 Semantic 记忆的动态蒸馏与持久化。
第三部分:多代协作、训练迭代与企业级治理(实现规模化落地)
目标:解决复杂任务解耦、模型持续进化与组织级审计问题,确保 AI 系统长效运行。
模块九:高级多智能体协作与自适应架构
9.1 协作模式选型:中心化(Manager-Worker)与去中心化(Mesh/Debate)模式的金融场景选型。
9.2 主流框架深度对比:LangGraph(状态机)、AutoGen(对话驱动)、Agno(任务驱动)的底层逻辑。
9.3 金融实战案例:构建自动化代码审计、智能合规报告生成的 Agent 群。
模块十:模型训练与元数据渐进式折叠(Metadata Alignment)
10.1 微调实战:意图识别(多分类)、参数抽取(Slot Filling)的 LoRA/QLoRA 高效微调。
10.2 元数据渐进式折叠对齐(MPFA):从 Field 到 Scenario 的分层建模,通过一致性损失实现跨层对齐。
10.3 对齐验证指标:建立元数据一致性率、时效对齐分与权限越界率等核心度量标准。
模块十一:端到端评估升级 —— Sim2Real 仿真体系
11.1 客户建模智能体(Customer Twin):构建具备不同风格、风险偏好与异常行为模式的仿真用户。
11.2 仿真环境构建:基于历史数据回放与极端场景生成的端到端评测沙箱。
11.3 Sim2Real 映射治理:监测仿真环境指标到线上指标的分布偏移,实现失效预警。
模块十二:可观测性、AI-BOM 与组织化推广
12.1 全链路可观测性:推理路径可视化、工具调用热图、延迟瓶颈分析。
12.2 AI-BOM 审计体系:记录模型、Prompt、Spec、Skill 及工具版本的全量资产清单。
12.3 治理与推广:生命周期管理(审批/发布/回滚)、共享资产库建设与人才认证体系。


