AI原生应用测试实践-2024_QECon全球软件质量效能大会-橙柚科技

9折优惠售票中

团购享更多优惠

深圳站 · 2024年5月24-25日

上海站 · 2024年9月20-21日

北京站 · 2024年10月25-26日

优惠倒计时

专场：AI原生应用测试实践

随着人工智能技术的迅猛发展，AI产品，大模型应用已经深入到我们日常生活和工作的各个层面。随之而来的，测试这些智能系统的复杂度在不断增加，为了确保AI产品的可靠性、稳定性以及提供卓越的用户体验，开展高效且精确的测试工作显得尤为关键。AI原生测试专场希望通过分享最新的AI产品的测试策略、先进工具以及实际应用案例，帮助参与者深入了解AI产品测试的全过程，掌握其核心技术和方法。

专场出品人：黄燕

科大讯飞技术中心测试总监集团测试分委会主任

2011年加盟讯飞，历年负责过算法引擎、汽车、医疗、服务等业务测试及测试经理工作。有多种AI原生测试及AI产品端到端测试经验及评估经验。从0到1构建了集团级的测试自动化体系和测试效能评估标准。目前负责集团测试效能提升工作，及效能实践体系、大模型测试实践的建设与落地。

汪洋

科大讯飞高级测试工程师

科大讯飞消费者BG 高级测试工程师，10年以上C端AI产品测试经验，目前主要负责听见SaaS平台的质量保障和效能提升等工作，保障千万级用户SaaS平台的高可用性和稳定性；及音视频转写效果、星火大模型写作产品效果的评测，专注功能和非功能测试效能提升。

待定

办公领域大模型应用的测试实践

1. 背景与诉求
1.1 办公领域大模型应用简介
1.2 应用端大模型能力测试的诉求
1.3 与通用大模型能力测试的异同
2. 探索过程
2.1 介绍探索过程中走过的弯路，包括测试标准设计、测试执行过程等方面遇到的问题
3. 实施方案
3.1 大模型能力测试标准设计：如何优化标准，提升测试结果准确性和测试执行效率
3.2 测试场景设计：从不同维度分析设计测试场景
3.3 测试执行落地：剖析大模型应用特点，拆分成抽取型文本生成和创作型文本生成，采取不同执行策略开展测试
4. 未来展望（探索完全使用大模型评分及自动化测试等）
4.1 探索使用大模型评分取代人工评分
4.2 探索快速迭代下的大模型能力自动化测试

张元剑

科大讯飞教育测试部副总监

科大讯飞教育中台团队测试负责人，高级测试架构师，集团测试技术横向组负责人，目前主要负责中台团队的测试质量保障工作，涉及大模型、AI能力、服务端、客户端、音视频等多领域，保障整体教育中台服务的可高可用、性能稳定性，为各个业务提供稳定的AI、大模型服务。

待定

教育产品大模型测试实践

1. 背景介绍
1.1 教育业务场景介绍
1.2 如何让大模型变成一名老师一对一的辅导学生，实现因材施教
2. 如何评价这名“老师”是否合格
2.1 测试范围、测试类型与质量标准的设计策略
2.2 端到端的效果测试设计策略
3. 如何快速的完成测试，反馈信息给这么“老师”提升老师的能力
3.1 如何实现自动化的测试
3.2 线上badcase分析，SFT的建设
4. 利用大模型实现以魔法打败魔法方向探索
5. 未来展望