专场:AI原生应用测试实践 
随着人工智能技术的迅猛发展,AI产品,大模型应用已经深入到我们日常生活和工作的各个层面。随之而来的,测试这些智能系统的复杂度在不断增加,为了确保AI产品的可靠性、稳定性以及提供卓越的用户体验,开展高效且精确的测试工作显得尤为关键。AI原生测试专场希望通过分享最新的AI产品的测试策略、先进工具以及实际应用案例,帮助参与者深入了解AI产品测试的全过程,掌握其核心技术和方法。
专场出品人:黄燕
科大讯飞 技术中心测试总监 集团测试分委会主任
2011年加盟讯飞,历年负责过算法引擎、汽车、医疗、服务等业务测试及测试经理工作。有多种AI原生测试及AI产品端到端测试经验及评估经验。从0到1构建了集团级的测试自动化体系和测试效能评估标准。目前负责集团测试效能提升工作,及效能实践体系、大模型测试实践的建设与落地。
汪洋
科大讯飞 高级测试工程师
科大讯飞 消费者BG 高级测试工程师,10年以上C端AI产品测试经验,目前主要负责听见SaaS平台的质量保障和效能提升等工作,保障千万级用户SaaS平台的高可用性和稳定性;及音视频转写效果、星火大模型写作产品效果的评测,专注功能和非功能测试效能提升。
待定
待定
办公领域大模型应用的测试实践
1. 背景与诉求
    1.1 办公领域大模型应用简介
    1.2 应用端大模型能力测试的诉求
    1.3 与通用大模型能力测试的异同
2. 探索过程
    2.1 介绍探索过程中走过的弯路,包括测试标准设计、测试执行过程等方面遇到的问题
3. 实施方案
    3.1 大模型能力测试标准设计:如何优化标准,提升测试结果准确性和测试执行效率
    3.2 测试场景设计:从不同维度分析设计测试场景
    3.3 测试执行落地:剖析大模型应用特点,拆分成抽取型文本生成和创作型文本生成,采取不同执行策略开展测试
4. 未来展望(探索完全使用大模型评分及自动化测试等)
    4.1 探索使用大模型评分取代人工评分
    4.2 探索快速迭代下的大模型能力自动化测试
张元剑
科大讯飞 教育测试部副总监
科大讯飞教育中台团队测试负责人,高级测试架构师,集团测试技术横向组负责人,目前主要负责中台团队的测试质量保障工作,涉及大模型、AI能力、服务端、客户端、音视频等多领域,保障整体教育中台服务的可高可用、性能稳定性,为各个业务提供稳定的AI、大模型服务。
待定
待定
教育产品大模型测试实践
1. 背景介绍
    1.1 教育业务场景介绍
    1.2 如何让大模型变成一名老师一对一的辅导学生,实现因材施教
2. 如何评价这名“老师”是否合格
    2.1 测试范围、测试类型与质量标准的设计策略
    2.2 端到端的效果测试设计策略
3. 如何快速的完成测试,反馈信息给这么“老师”提升老师的能力
    3.1 如何实现自动化的测试
    3.2 线上badcase分析,SFT的建设
4. 利用大模型实现以魔法打败魔法方向探索
5. 未来展望
张琦
华为 PaaS技术创新Lab 大模型技术专家
华为技术有限公司 PaaS技术创新Lab 大模型技术专家。主要负责AI研发助手CodeArts Snap的竞争力建设以及能力交付,端到端负责数据准备,模型训练,模型评测,服务交付。
待定
待定
CodeArts Snap背后的研发大模型评测探索
大模型的评测面临非常多的问题,目前的大模型评测无法排出人的参与,模型评测人力成本高,持续时间长,主观性强,不能复现。现在的模型评测已经无法满足快速迭代的大模型技术。如何在短时间内,用最少的资源获取模型真实客观的能力,是一个急需解决的问题。
1. 大模型评测现状以及面临的挑战
2. 华为研发大模型评测指标体系
    2.1 指标建设
    2.2 数据集建设
    2.3 内外双循环迭代
3. 华为研发大模型评测流水线
    3.1 整体设计思路
    3.2 架构设计
    3.3 核心功能实现
    3.4 面临的挑战
4. 未来的探索和思考
可以获得研发大模型的评测方式,算法以及数据集。了解业界大模型的能力对比。可以按照这套方式建立自己的模型评测体系。
内容大纲
听众收益
敬请期待
......
......
待定
待定
敬请期待
......
......
......
内容大纲
听众收益
关注QECon公众号
关注QECon视频号
议题投稿 
lijie@qecon.net  
票务联系 
15901265561  小娟
 
媒体合作
13516196409  皮皮
商务合作
15122643988  木子
购票咨询
15901265561  小娟