专场:大模型时代的质量工程
当大模型成为数字基座,质量工程正经历从“人工验证”到“AI驱动”的范式跃迁。传统测试方法在应对千亿参数模型动态推理、多模态输出时捉襟见肘,而 LLM 自身也成为破解质量难题的新钥匙。当大模型既是被测对象又是测试工具,质量工程正在重构人机协作的边界——本专场将揭晓如何用AI保障AI,让智能系统真正“可信、可用、可控”。
专场出品人:张国顺 
阿里巴巴国际数字商业集团 高级测试开发专家
AE网站安全生产负责人&业务技术平台质量团队负责人、AE基础架构师;
擅长领域:基础架构、安全生产、自动化测试框架、研发效能、混沌工程;
专利创新:8份专利(三份国家专利局已授权) ;
当前专注重点:测试技术与AI结合探索、安全生产与AI结合探索;
AE技术部最佳创新奖、质量守护神奖、安全生产金牌管家、编程马拉松冠军、阿里巴巴集团蓝军代言人、多届双十一大促稳定性队长等;
质量领域:AUI自动化框架创始人之一,创新设计并主导开发了路由系统、强弱依赖分析系统、攻防注入工具、配置解析工具等;
基础架构:先后负责并完成AE网站容灾架构升级、隐私合规方案、CDN和接入层架构升级、域名和网络体系升级、安全反爬和网络攻击升级、卓越工程等数十项 重大 技术升级。
易龙
vivo 互联网大数据专家
vivo 互联网,大数据专家,目前是 数据集成 团队负责人,以及高质量多模态数据项目技术负责人。硕士,毕业后曾就职于华为2012实验室 和腾讯,深耕数智化领域11年,交局12篇相关专利。
待定
待定
业务价值驱动有效构建高质量数据的方法和实践
在数字化时代,数据是企业核心资产,数据质量关乎企业生存发展,数据驱动决策成主流,但全链路数据质量问题是企业严峻挑战。
大数据、AI、云计算技术发展使数据量激增、类型复杂,市场竞争加剧让企业需精准数据分析,低质量数据会致决策错误、企业竞争力下降。
大模型时代,高质量数据是大模型训练的基石,也是行业场景化应用成功落地的关键。高质量数据不仅是技术竞争的“护城河”,更是推动社会智能化升级的战略资源。企业需以业务价值为导向,构建覆盖数据全生命周期的治理体系,同时借力政策与技术创新,实现从“数据成本”到“数据资产”的跃迁。未来,随着标准化、智能化技术的普及,高质量数据将加速赋能千行百业,成为人工智能持续突破的核心引擎。

实际在企业内部数据全链路生态系统中,因部门壁垒、技术差异、数据标准不统一等,数据常出现缺失、错误、不一致等质量问题,影响分析准确性、业务流程,带来业务损失。高质量数据的工作重要性虽有行业共识,但如何有效关联和支撑到业务价值却并非有广泛共识,另外,如何有效进行数据质量提升也是一个经常会困扰大家的问题,这导致很多企业投入了很多资源做数据质量相关工作的结果并不见效ROI不高,得不到更多的支持与认可。

本演讲题目旨在通过业务价值导向,建立业务价值和数据质量的映射,进行全链路数据质量提升,保障数据在各环节的稳定性和高质量,实现 “数据高质量→决策高精准→业务高收益” 的闭环。

内容大纲
1. 引言:新时代的数据挑战与破局
   1.1 背景与痛点
   1.2 破局思路
2. 理论框架:价值驱动数据质量提升 VDDQI(2-4-X)
    2.1 框架介绍
    2.2 落地建议
3. 关键方法与技术
    3.1 业务价值流与数据流剖析方法
    3.2 业务价值与数据质量映射引擎
    3.3 全链路数据质量提升方法
    3.4 价值验证方法
4. 业务场景实践案例

听众收益
1. 分享基于业务价值导向的思维方式,学会将数据质量提升与企业战略和业务目标紧密结合。
2. 分享从全链路视角出发,保障数据在各环节的稳定性和高质量,支撑企业战略决策和业务发展。
3. 熟练掌握提升数据质量的有效方法与实践技巧,能运用并解决实际工作中的复杂数据质量问题。
 
王珍懿
蚂蚁集团 测试开发专家
蚂蚁集团测试开发专家,所在团队从事支付宝商家域AI应用的评测工作,本人主要负责评测提效方法在垂类领域的落地应用和算法创新,保障评测工作的高效、全面、及时,降低人力成本投入。有多篇相关顶会论文已录用或审稿中。
待定
待定
基于大模型的智能交互产品评测
随着人工智能技术的快速发展,智能交互产品(如智能客服、语音助手、聊天机器人等)在各领域的应用日益广泛。然而,如何全面、准确地评测这些产品的性能和用户体验,成为行业面临的重要挑战。传统评测方法依赖人工标注和简单指标,效率低下且难以覆盖复杂场景和多维度需求。尤其在AI算法快速迭代的背景下,传统方法已无法满足高效、精准的评测要求。为此,我们提出了一种基于大模型的综合智能评测方法,结合传统NLP/CV技术和大模型的强大能力,对内容质量、对话流畅度、安全性、自我认知等多维度进行全面评估,并对齐人工偏好。该方案不仅提升了评测效率,还显著增强了评测的全面性和准确性,为智能交互产品的优化提供了强有力的支持。

内容大纲
1. 垂类智能交互产品评测的现状与痛点
    1.1 传统评测方法的局限性:评测需求承接落地+人工标注效率低、成本高;简单指标难以全面反映实际效果
    1.2 评测面临的挑战:产品迭代、算法更新速度快,人力手工投入评测难以跟上节奏;垂类场景复杂,评测维度不足
2. 基于多模态大模型的评测方案
    2.1 技术框架:基于大模型全链路提效的设计思路。
    2.2 提效能力重点:评测集自动生成与评估;自动标注替代人工审核;badcase归因分析。
3. 支付宝垂类智能应用的评测实践
    3.1 2B/2C垂类应用的自我认知:从输入扰动获取富有多样性的可靠生成:场景评测集的快速构建
    3.2 AI产品的真机评测:自动采集+图像分割+目标检测+智能标注=高效双盲评审

听众收益
了解如何利用大模型+传统深度学习算法,解决智能交互产品评测中的效率与全面性问题。了解垂类产品多维度评估的方法论,快速应用于自身业务场景。
阳际荣
京东零售 质量总监
就职于京东零售,负责本地生活质量,在阿里巴巴、网易、京东担任质量总监。专注于本地生活、外卖质量,通过AI技术推动本地生活质量体系提升。
待定
待定
构建三层AI防护网:实现需求到测试的智能闭环
一. 背景
行业痛点驱动
1. PRD质量层次不齐,隐含逻辑漏洞导致线上事故
2. 手工编写测试用例耗时长,且易遗漏逆向及边界场景
3. 代码改动与需求映射不透明,测试覆盖盲区频发
二. 典型痛点场景
1. 阶段 传统方式缺陷
2. PRD评审 准入标准缺失、易存在安全漏洞、难发现深层逻辑缺陷
3. 用例设计 需求→测试点转化效率低,P0/P1场景覆盖不全、易遗漏逆向及边缘用例
4. 代码变更 影响范围评估完全依赖个人经验、易出现遗漏
5. 测试执行前 缺乏自动化手段验证用例集完整性,漏测风险高

内容大纲
实战中的思考:AI是来替代人的么?AI的核心价值在哪里?
遇到的坑:对AI的定位问题、大模型的“幻觉”与稳定性问题、系统集成复杂度高、
质量同学的抗拒心理

实战思路:
1. 需求评审
输入 PRD 文档,经大模型做语义明确性检测、逻辑漏洞扫描、资损风险识别,输出 PRD 质量报告并优化 PRD。
2. 开发与用例编写
以优化后 PRD 为输入,大模型生成用例,提取需求测试点,生成 P0/P1 参考用例,最终由 QA 产出用例集合。
3. 测试
输入 PRD、Diff 及测试用例,大模型做 PRD 和 Diff 覆盖分析,识别 P0/P1 用例缺失,生成需求改动点,输出用例补全报告后上线
4. 版本发布
上线后发布产品版本

收益:
1. PRD质量显著提升,大量缺陷扼杀在编码前
2. 测试用例书写效率提升30%-50%,确保了p0/p1核心场景100%覆盖,并能大量生成逆向、边界及异常用例
3. 有了代码Diff,100%杜绝了需求上线夹带私货,大大降低了‘改A坏B‘的概率
4. 流程标准化后,用例的高质量产出不再强依赖业务熟悉度及个人能力

听众收益
1. 认知提升:理解AI在测试中的系统化应用框架与人机协同模式
2. 方法掌握:学会“三层防护网“、”双维度验证“、”分层测试“等实战方法
3. 实操参考:获得PRD质检、用例生成、Diff分析等环节的具体做法
4. 战略价值:掌握如何通过AI实现质量左移、能力标准化与持续优化
关注QECon公众号
议题投稿
lijie@qecon.net
商务合作
151-2264-3988  木子
票务联系
135-2067-8913  郭梦媛
媒体合作
135-1619-6409  皮皮
添加QECon小助手,获取
会议最新资讯
购票咨询
13520678913  郭梦媛
服务总线
400-183-9980  
电话咨询
联系电话:
胡利利 18649077637