大模型评测与质量保障-2024北京站_QECon全球软件质量效能大会-橙柚科技

9折票售票中

团购享更多优惠

深圳站 · 2024年5月24-25日

上海站 · 2024年9月20-21日

北京站 · 2024年10月25-26日

优惠倒计时

专场：大模型评测与质量保障

随着大模型能力的迅猛发展，各类LLM应用正在快速迭代并深入到我们日常生活和工作的各个层面。随之而来的问题是：如何全面、准确、高效地评测大模型和AI应用，持续驱动模型和产品迭代改进。这是各个AI产品团队都在探索实践的问题。
“大模型评测与质量保障”专场希望通过分享有效方法、先进工具和优秀实践，交流探讨、总结经验，帮助参与者了解LLM应用评测全过程，掌握先进的评测方法和技术，提升产品质量和智能化水平。

专场出品人：刘广

北京智源人工智能研究院基础语言模型与软件组负责人

北京邮电大学智能科学与技术博士，北京智源人工智能研究院基础语言模型与软件组负责人，负责飞智FlagAI开源项目以及悟道·天鹰Aquila系列基础模型(7B/34B/70B)，主要研究方向是预训练大模型等。

陈永健

华为 GTS平台测试总工

华为GTS产品线平台测试总工，6级专家，18年华为运营商领域软件测试经验，目前主要负责华为运营商软件数智化转型与AI云原生平台开发测试，长期专注测试技术发展，在混沌工程（高可靠性测试）、生态兼容性测试、自动化测试、AI大模型评测、性能与仿真测试等领域有深入探索，长期支撑和保障全球300+运营商客户稳定运营。

待定

从低码到智码，华为ADC智码平台AI评测挑战与实践

大模型智能化浪潮下，低码开发平台纷纷向AI智码开发平台转型，开发门槛越来越低，但系统复杂性和质量要求持续增加，如何评估AI加持后智码平台开发质量，包括模型生成、流程生成、界面UI生成、代码（含SQL）生成的质量。本主题作为华为当下运作的AI测评项目给出了实践答案。

内容大纲
1. 低码平台向AI智码平台转型带来的测试挑战
1.1 挑战1测试什么：测试集构建
1.2 挑战2怎么测：评测标准和方法
1.3 挑战3如何测得快：测试效率
2. 测试什么：AI智码测试集构建思路和方法
2.1 面向业务场景
2.2 面向用户
3. 怎么测：AI智码测试评测标准与方法
3.1 主客观评测结合
3.2 静态与动态评测结合
3.3 正向与负向评测结合
4. 测得快：用AI测AI，构建领域智码测试系统
4.1 测试集衍生与数字化管理
4.2 评测agent助力自动化评测
4.3 评测报告一键式生成
5. 业务效果与下一步展望
5.1 产品应用业务效果
5.2 下一步展望

林玥煜

元始智能算法工程VP

曾任大数医达科技有限公司算法总监，阿里巴巴数据事业部系统架构师，多年来深耕大数据、人工智能在工业界应用和开发管理。对大语言模型在严肃场景（如医疗、数据分析等）的应用、开发拥有丰富的实战经验。

待定

RWKV，引领大模型架构变更的新型RNN

1. RWKV的历史
2. RWKV架构的特点
3. RWKV的基础模型
4. RWKV的落地场景
5. RWKV未来的发展方向
6. 探索RWKV在软件研发、质控方面的创新应用

黄一鹤

百度资深工程师

百度TPG工程效能部 Comate Stack 团队资深工程师，目前主要负责百度AI原生研发新范式下，Prompt研发全流程、LLM和AI原生应用全场景效果评估的相关工具链建设。同时为智能体&RAG&多模态等典型应用场景提供高质量、高效率的评估解决方案。毕业后先后从事搜索引擎策略&架构质量保障、计算机视觉相关AI模型的算法测试&效果评测、测试在线化相关工具平台的开发工作。

待定

大模型及AI应用效果评估实践

随着生成式AI技术的飞速发展，国内外LLM和AI原生应用的研发如火如荼。对于AI原生应用研发而言，需要验证使用的大模型以及最终应用是否能够达到预期效果，并持续迭代以和优化效果以提升用户满意度。与此同时，随着AI应用迭代越来越快，各产品都需要更频繁地开展效果评估工作。如何既能保证评估结果准确，又能大幅提升评估效率的自动化评估也越来越重要。

我们给大家带来大模型及AI原生应用效果评估上的实践，详细介绍如何使用工具快速构建评估体系、如何组织AI研发不同阶段的评估任务，以及如何使用平台提供的各项能力更高质量更高效率的完成评估工作，如何由浅入深地玩转自动化评估，帮助业务多快好省地完成效果评估工作。

内容大纲
1. 介绍评估的重要性：AI原生研发的最后一公里。
2. 介绍如何制定评估方案：
2.1 典型的评估流程
2.2 评估方案的组成部分
3. 详细介绍完整的评估流程（包括平台支持与实践）
3.1 评估策略组成要素
3.2 如何构建专业全面的评估集
3.3 评估方式的对比与选择：人工评估、自动化评估
3.3.1 人工评估：流程组织、评估技巧

3.3.2 自动化评估提效：调研，解决方案——算法、定制、自定义。
3.4 撰写专业全面的评估报告
4. 效果评估的不同应用场景及不同评估实践
4.1 定期执行、批量对比
4.2 效果监控

听众收益
1. 如何针对产品、使用场景制定合适的评估方案；
2. 如何制定人工评估的流程、规范、技巧
3. 自动化评估解决方案