生成率从8%到60%：快手智能测试用例生成系统的四阶进化

2026-03-27

03实践1：从V1.0到V4.0的技术架构演进实践

3.1 V1.0版本：Prompt 工程探索阶段

3.1.1 初版设计思路

核心假设：大模型已具备足够的“测试常识”，只需通过精心设计的 Prompt 引导，即可生成高质量测试用例。
技术方案：V1.0 单体生成流程

3.1.2 核心技术实现

技术架构

Prompt结构设计

初版Prompt架构

存在的问题

第一轮优化：Few-shot Learning

问题分析：生成的用例质量仍参差不齐，主要原因是模型对“高质量用例”的标准理解不足。
解决方案：引入来自业务真实场景的高质量测试用例作为样本，提升模型输出的一致性和专业性。
Few-shot Prompt架构：

关键发现：

提供3个样例为性价比最优选择（边际收益趋于平缓）
样例质量远重于数量（1个高质量样例 > 5个低质量样例）

实际生成效果对比：

第二轮优化：场景化 Prompt 模板

问题分析：不同类型的需求文档（如 PRD、技术方案等）需要匹配差异化的测试策略，通用 Prompt 难以覆盖多样化测试目标与表达要求。

解决方案：构建多场景路由机制，依据输入文档的类型自动匹配最优的 Prompt 模板，实现精准化、专业化测试用例生成。

3.1.3效果测评

为了验证 Prompt 优化策略的有效性，我们针对多个关键动作开展了系统性测评。测评基于真实业务场景中的 PRD 和技术方案文档，采用统一测试集进行对比评估。

测评一：Few-shot Learning 效果验证

测试场景：基于 PRD 生成功能测试用例（礼物贴纸玩法模块）
对比组：

对照组：无 Few-shot 的初始版本 Prompt
实验组：引入3个高质量样例的 Few-shot Prompt

测评结果：

关键发现：

测评二：场景化 Prompt 模板效果验证

测试场景：基于不同类型文档生成测试用例
对比组：

对照组：通用 Prompt（不区分文档类型）
实验组：场景化 Prompt（根据文档类型自动匹配专用模板）

场景1：PRD 功能用例生成

典型改进案例：

场景2：技术方案用例生成

典型改进案例：

3.1.4 核心问题

尽管经过多轮优化，V1.0 仍面临三大难以突破的瓶颈：

问题1：长文档理解能力不足

问题2：缺乏业务背景知识

问题3：生成过程“黑盒”

3.1.5 阶段总结

结论：需要从系统架构层面重新设计解决方案

3.2 V2.0版本：Multi-Agent 协作与人机交互阶段

3.2.1 设计理念转变

QA编写测试用例的真实思维过程并非“一步到位”，而是分阶段逐步推进的，具体如下：

1. QA 会先“拆解测试点（模块）”再“细化为具体用例”

2. 每个阶段都存在 Review 环节，便于及时纠偏

3. 若前期阶段出现偏差，后续将越走越偏

基于此，我们对于V2.0采用了新的设计思路，即模拟人类思维方式，引入Multi-Agent协作机制，并在关键节点支持人工介入。

3.2.2 Multi-Agent架构设计

业务流程

技术架构

3.2.3 核心 Agent

文档解析 Agent

这一Agent的职责是，对多种格式的输入文档进行标准化处理，提取其中的有效信息。

文档解析流程：

实际案例

效果示例：

模块生成 Agent

这一Agent的职责是从清洗后的文档中提取测试点，生成结构化的测试模块树。

用例生成 Agent

这一Agent的职责是，基于用户确认的测试模块，生成详细的测试用例。

3.2.4 效果测评

为验证 Multi-Agent 架构与人机协作机制的有效性，我们针对 V2.0 版本的关键动作开展了基于真实业务场景的系统性测评，从多个维度对比 V1.0 与 V2.0 的表现差异。

测评指标说明

测评一：文档解析 Agent 效果验证

测试场景：处理不同长度和复杂度的 PRD 文档
对比组：

对照组：V1.0 直接输入完整文档
实验组：V2.0 经文档解析 Agent 预处理后输入

测评结果：

关键发现：

测评二：模块生成 Agent 效果验证

测试场景：基于预处理后的文档生成测试模块树
测评结果

测评三：人机协作机制效果验证

测试场景：对比 V1.0（黑盒模式）与 V2.0（分阶段 Review）的用户体验与效率
测评结果

关键发现：

3.2.5 阶段总结

3.3 V3.0版本：知识工程阶段

3.3.1 设计动机

我们发现，V2.0遗留着一个核心问题，即生成的用例缺乏“业务深度”。

基于此，我们调整了V3.0的设计目标，即构建体系化的知识引入机制，使 AI 具备“懂业务”的能力。

3.3.2 架构设计

技术架构

知识引入的四个维度

3.3.3 RAG 检索增强生成

RAG 整体架构
召回结果的价值：
1. 提供了详细的步骤参考（如“URL参数携带need_amount”）
2. 补充了业务规则（如“充值后自动返回”）
3. 最重要：带入了历史缺陷经验（并发重复扣款、支付超时重复订单）
基于 RAG 增强的用例生成
3.3.4 效果测评
为验证体系化知识引入机制的有效性，我们针对 V3.0 的关键功能进行了基于真实业务场景的系统性测评，从多个维度对比 V2.0 与 V3.0 的表现差异。
测评指标说明

测评一：RAG 检索增强生成效果验证

测试场景：基于 PRD 生成测试用例，对比有无 RAG 增强的效果
对比组：

对照组：V2.0 仅基于 PRD + Few-shot 样例生成用例
实验组：V3.0 基于 PRD + RAG 检索的历史用例和业务知识生成用例

测评结果：

关键发现：

测评二：知识引入综合效果验证

测试场景：对比 V2.0 和 V3.0 在整体用例生成质量上的差异
测评结果

典型改进案例：【直播礼物需求】

3.3.5 阶段总结

3.4 V4.0版本：自主性&自进化阶段

3.4.1 技术架构

3.4.2 核心突破一：自主评审，Review-Critique 生成模式

设计动机

传统的 AI 生成采用“单次直出”模式，类似于只会答题而不会检查的学生。为提升生成质量，需赋予 AI “自我反思”能力，构建“生成-评审-优化”的自主评审闭环机制。

关键设计理念：

Critic（判别）：AI 扮演“评审员”角色，对生成结果进行系统性审查并给出专业指导建议
Generator（生成）：根据评审意见自动调整与优化输出内容
离线异步：因多轮迭代耗时较长，采用后台处理结合通知机制，保障效率与响应性

完整技术流程

整体架构

阶段一：模块级评审->优化闭环（结构治理）

自主评审Agent —— 模块审查维度详解：

输出示例（未通过）：

阶段二：用例级评审->优化闭环（细节打磨）

自主评审Agent

用例审查策略：全局 Review + 逐条细节检查
用例审查维度：

输出示例（未通过）：

质量指标与效果

对比传统模式的提升：

3.4.3 核心突破二：基于测试计划的自进化场景规则模板

问题背景：知识维护的困境

在 V3.0 阶段，为了让 AI 理解业务，需人工编写大量团队业务模板（业务已维护 170+ 套业务定制的团队模板），但该模式存在三大痛点：

1. 维护成本高：每个新业务场景均需人工梳理规则

2. 知识更新慢：历史缺陷经验无法及时同步至模板

3. 专家依赖强：需资深 QA 才能总结高质量模板

因此，我们的核心设计理念是让系统从历史数据中自动学习，实现隐性知识显性化。

技术方案：双层模板体系

我们构建了两种层级的自进化模板：

单一场景知识：精准规则提取

定位：针对特定微场景（如“直播间送礼”、“评论输入框”）的精确规则

作用：作为 RAG 链路中的上下文参考；自动补齐测试点，降低遗漏率

场景模版生成流程

RAG 召回流程

通用场景模板：聚类与抽象

定位：多个相似场景聚合而成的通用规范（如“消费端评论发布通用模板”）
作用：支持手动召回的 RAG 链路；作为明确的生成规则，提升精度
生成策略：

AI聚合核心逻辑：

提取共性：保留出现在两个及以上场景中的规则
去除个性：过滤仅属于特定需求的特殊逻辑
保留具体细节：避免笼统表述如“参考历史模板”，必须明确列出具体的验证点

核心价值与成效

降低知识维护成本

提升生成质量

3.4.4 阶段总结

04实践2：四层架构驱动的方法论实践

AI测试用例生成系统的成功，往往依赖于一套分层递进的架构体系。基于此，我们在实践中提炼出“四层架构”模型：场景分层 → 用户运营 → 知识运营 → Agentic架构，自上而下指导决策方向，自下向上提供能力支撑。

4.1 四层架构全景

4.2 场景分层 —— 选对战场

我们的核心原则是不追求“全覆盖”，而是基于价值x复杂度矩阵进行精准突破。

4.3 用户运营 —— Badcase驱动闭环

Badcase是最好的老师，通过系统化收集与分析用户反馈，驱动持续迭代优化。

Badcase分类与解决路径

闭环运营流程

关键指标演进：

4.4 四层协同：从Badcase到系统进化

我们以一个Badcase如何驱动四层协同进化来示例。

【触发】用户反馈：直播送礼场景缺少“并发送礼”测试点
【第一层 - 场景分层】
判定：直播送礼属于“高价值”场景，值得深入优化
【第二层 - 用户运营】
Badcase分类：覆盖类问题
根因分析：知识库缺少并发场景的历史缺陷数据
【第三层 - 知识运营】
补充缺陷库：新增“并发送礼重复扣款”历史Bug记录
更新规则库：提取“支付场景必须验证并发”规则
自动更新模板：直播送礼模板中新增并发测试点
【第四层 - Agentic架构】
RAG检索：后续生成自动召回并发相关知识
Critique Agent：自动检查是否覆盖并发场景
【结果】同类Badcase不再出现，场景覆盖率提升至92%

4.5 方法论总结

核心启示：

自顶向下做决策：通过场景分层明确资源投入方向，确保战略聚焦
自底向上建能力：以Agentic架构支撑知识运营，推动能力持续沉淀与复用
Badcase是进化燃料：每个问题都是优化契机，形成“反馈→改进→提升”的持续进化飞轮

05展望

经过从V1.0 到 V4.0的持续演进，快手智能测试用例生成系统已完成了从「实验性工具」到「标准化生产力工具」的跨越。

然而，我们也认识到，测试效率提升空间远不止于「生成」环节，测试人员仍需投入大量时间在手工用例执行上，这是下一阶段的核心突破方向。未来，我们将核心突破聚焦于「AI 智能执行用例」场景，构建从用例生成到用例执行的全链路智能化能力。

具体包含如下三个方向：

下一站

变革之路注定艰难，但先行者从不独行。

如果你已准备好不再旁观，如果你渴望遇见那些同样躬身入局、拥抱 AI 且亲手“手搓代码”的同行者——欢迎来 AiDD ，一起成为这场范式重构的参与者与制定者，一起定义 AI 时代的技术领导力。

上一篇 : 2026上海站｜AI+产品创新峰会即将启航！四大硬核赛道，解下一篇 : 参会指南来啦！AI+产品创新峰会上海站倒计时，期待您的到来！返回列表

生成率从8%到60%：快手智能测试用例生成系统的四阶进化

3.1.1 初版设计思路

第一轮优化：Few-shot Learning

第二轮优化：场景化 Prompt 模板

测评一：Few-shot Learning 效果验证

测评二：场景化 Prompt 模板效果验证

3.1.4 核心问题

问题1：长文档理解能力不足

3.2.2 Multi-Agent架构设计

业务流程

3.2.3 核心 Agent

文档解析 Agent

模块生成 Agent

用例生成 Agent

3.2.4 效果测评

测评指标说明

测评一：文档解析 Agent 效果验证

测评二：模块生成 Agent 效果验证

测评三：人机协作机制效果验证

3.3 V3.0版本：知识工程阶段

3.3.1 设计动机

3.3.2 架构设计

技术架构

知识引入的四个维度

3.3.3 RAG 检索增强生成

RAG 整体架构

3.3.4 效果测评

测评指标说明

测评一：RAG 检索增强生成效果验证

测评二：知识引入综合效果验证

3.4 V4.0版本：自主性&自进化阶段

3.4.1 技术架构

3.4.2 核心突破一：自主评审，Review-Critique 生成模式

设计动机

完整技术流程

质量指标与效果

3.4.3 核心突破二：基于测试计划的自进化场景规则模板

问题背景：知识维护的困境

技术方案：双层模板体系

单一场景知识：精准规则提取

通用场景模板：聚类与抽象

核心价值与成效

4.1 四层架构全景

4.2 场景分层 —— 选对战场

4.3 用户运营 —— Badcase驱动闭环

Badcase分类与解决路径

4.4 四层协同：从Badcase到系统进化

我们以一个Badcase如何驱动四层协同进化来示例。