华为技术有限公司 PaaS技术创新Lab 大模型技术专家。主要负责AI研发助手CodeArts Snap的竞争力建设以及能力交付,端到端负责数据准备,模型训练,模型评测,服务交付。
CodeArts Snap背后的研发大模型评测探索
大模型的评测面临非常多的问题,目前的大模型评测无法排出人的参与,模型评测人力成本高,持续时间长,主观性强,不能复现。现在的模型评测已经无法满足快速迭代的大模型技术。如何在短时间内,用最少的资源获取模型真实客观的能力,是一个急需解决的问题。
1. 大模型评测现状以及面临的挑战
2. 华为研发大模型评测指标体系
2.1 指标建设
2.2 数据集建设
2.3 内外双循环迭代
3. 华为研发大模型评测流水线
3.1 整体设计思路
3.2 架构设计
3.3 核心功能实现
3.4 面临的挑战
4. 未来的探索和思考
可以获得研发大模型的评测方式,算法以及数据集。了解业界大模型的能力对比。可以按照这套方式建立自己的模型评测体系。