#大模型和AI应用评测 论坛@AiDD深圳站 AI+测试线(11月14-15日)
出品人:黄胜鲁 中兴通讯 智家研发改进总工
“我们是否需要一个统一的大模型评测标准?”
从生成式AI最核心的算法测试出发,最终完成“从算法层到系统层、从通用评估到场景化落地” 的评测认知升级。
演讲1:生成式AI算法测试实践与挑战
常晶
OPPO AI测试架构师
演讲2:iEval:大模型评测系统建设和应用
欧阳灿
腾讯微信 WXG大模型体验评测系统负责人
演讲3:面向行业智能体评测的个性化、高拟真的评估新范式
张俊俊