研发大模型训练数据质量-2025深圳站_QECon全球软件质量效能大会-橙柚科技

优惠倒计时

9折票抢购中

团购享受更多优惠

北京站 · 10月31-11月1日

上海站 · 9月12-13日

深圳站 · 5月23-24日

专场：研发大模型训练数据质量

本专场聚焦大模型训练数据的质量治理、领域适配与安全合规，深入探讨如何构建高价值、低噪声的领域数据集。论坛将解析数据清洗算法优化、多模态数据标注标准、私域知识增强等关键技术，并结合DeepSeek Zero等实践案例，分享数据偏差检测、知识蒸馏优化及敏感信息脱敏的解决方案。针对代码生成、测试用例等场景，重点讨论训练数据的多维度评估体系构建与全生命周期管理，助力企业突破数据质量瓶颈，释放大模型在研发效能提升中的核心价值。

专场出品人：陈思衡

上海交通大学人工智能学院长聘轨副教授、博导

美国卡内基梅隆大学（CMU）博士，博士后，入选国家级人才计划青年项目，曾就职于美国UBER ATG自动驾驶部门。承担了基金委面上，原创探索，科技部人工智能2030重大项目课题，上海市科委人工智能专项等科研项目。研究聚焦大模型多智能体，在Nature Computational Science, Cell Patterns, T-PAMI, NeurIPS, ICML, ICLR, CVPR等期刊和会议上发表了百余篇论文。曾获得IEEE信号处理协会最佳青年作者论文奖，三菱电机实验室总统奖等。

高超

华为云代码大模型数据专家

华为云代码大模型数据专家负责代码大模型训练数据构建交付及管理，主要包括构建高质量的代码类训练数据，及自动化的数据清洗质检pipline，支撑代码大模型训练及各产业代码生成任务落地。

待定

代码大模型训练数据建设实践

随着代码大模型（如Github Copilot、CodeLlama 、DeepSeek-Coder、Qwen-Coder、OpenCoder）的快速发展，代码大模型对于研发效率提升的作用越来越大，高质量代码训练数据对代码大模型的能力有着重要作用。本次分享基于华为云盘古助手团队在代码大模型的建设实践，主要内容为代码大模型训练数据构建实践。

内容大纲

1. 代码训练数据建设的价值
2. 代码训练数据建设方案
2.1 预训练代码数据构建
2.2 合成代码数据构建
2.3 微调代码数据构建
3. 代码大模型落地效果
4. 未来展望

4.1 合成数据构建
4.2 数据智能构建

董汉德

腾讯腾讯云AI代码助手模型负责人

腾讯开发者中心团队AI产品技术专家，目前主要负责腾讯云AI代码助手相关的大模型研发，包括代码大模型预训练、后训练、强化、Agent等。负责腾讯云AI代码助手大模型期间，董汉德牵头搭建了团队的数据基建和模型训练，打磨了一流的代码模型，目前腾讯云AI代码助手的产品体验处于行业第一梯队。董汉德毕业于中国科学技术大学，在AI领域深耕多年，有丰富的研究和工业界经验，在数据挖掘、推荐系统、大模型均有深入研究。董汉德擅长从技术和产品用户视角同时考虑问题，优化算法，使得技术高效转化为产品力。

待定

代码大模型的训练及发展趋势

编程场景作为大模型落地和商业化最成功的场景之一，依赖于代码大模型或通用大模型优秀的代码能力。训练出好的代码模型，依赖于高质量数据和高效的训练算法。腾讯云AI代码助手团队在上述问题有深厚的技术积淀，本议题将会以代码补全为切入点，分享腾讯云AI代码助手团队在代码大模型领域的技术实践。代码补全作为大模型在代码领域最先落地、最高频的场景，在整个代码智能的生态中具有基础性的地位。与此同时，随着模型能力的提升，以agent为基础的代码智能产品将会在未来快速发展，在agent时代，模型将会与agent应用协同发展，双向促进，创造更大价值。

内容大纲
1. LLM方法论
1.1 Scaling Law
1.2 大模型训练范式
1.3 训练模型的挑战
2. 代码补全大模型的训练
2.1 补全模型的特点
2.2 补全模型的数据
2.3 补全模型的训练方法
2.4 补全模型的离线评估和线上指标
3. 代码大模型的未来
3.1 代码智能产品趋势
3.2 代码Agent的发展
3.3 应用和模型相互促进

听众收益
1. 大模型训练的基础知识
2. 代码领域常用的数据和处理数据的操作
3. 代码补全场景的挑战
4. 代码智能产品的发展趋势
5. 未来产品和模型共同演进的生态

杨经纬

百度工程效能部前端研发经理

百度工程效能部前端研发经理，10+年从业经验，从事于百度Devops智能化落地、智能编码助手文心快码Comate、集团人机交互模式探索等业务方向，对于Devops智能化落地、智能编码助手、用户体验等有着丰富的经验。

待定

文心快码背后的智能化进阶之路

在AI高速发展的时代，智能编码作为落地最快和效果最好的场景，受到了广泛的关注。在过去一年中，智能代码助手不断演进，研发工程师的智能编码需求也不断升级，关注重点从早期的续写/补全，变成了预测改写以及代码智能体等。越来越多的非研发人群也加入到对这个领域的关注和实践中，甚至产生了Vibe Coding的概念，让无任何代码经验的人群动动手指就能产出一套自己定义的应用。在智能代码助手日益升级的背后，需要满足哪些产品和技术上的要求，让我们一探究竟。

内容大纲
1. 智能代码助手的发展趋势
1.1 从手动编码到预测改写
1.2 从问答到智能体编码
1.3 从零编码经验到Vibe Coding（非研发人群）
2. 实现原理
2.1 多端建设
2.2 模型预测
2.3 工具链调用
2.4 上下文理解
3. 效果