快手科技智能研发中心高级算法工程师,目前主要负责内部代码大模型的算法研发,大模型训练以及相关应用的落地。 包括大模型在代码续写,智能Oncall,研发助手,对话式编程,研发工具串联等多个场景的落地实践。个人项目经历&研究兴趣包括:快手内部静态程序分析引擎研发,基于SCM的Uplift人群增益投放算法设计,基于Transformer架构的新型注意力机制设计。
kwaipilot-超长上下文时代的大模型给研发提效带来的机遇
大模型的上下文窗口越来越大, 推理技术越来越成熟, 如何看待并利用这些前沿的发展方向? 传统的程序分析技术, 能否让大模型真正理解研发任务, 帮助大模型在研发提效场景更上一层楼? 如何真正评估大模型在研发任务中发挥的能力, 现有评测集有哪些存在的问题?
1. 大模型上下文窗口越来越大, 如何与研发工作流结合? 有哪些应用场景。
2. 长上下文和RAG 哪个是最终的技术方案?
3. 在推理时间/资源有限, 如何提升上下文窗口的信息密度?
4. 训练数据, 评测脚本与一线研发真实场景差异较大, 如何获得真正符合真实研发场景的数据? 转起数据飞轮?
5. 为什么离线评估结果总是和线上结果对不上?
1. 了解LLM当下前沿的发展方向和在研发提效场景的应用方向, 避免战略性踩空, 真正进行研发效能提升
2. 了解如何正确评估大模型, 避免出现技术选型失误
3. 了解如何在数据方面提升大模型的效果, 如何利用用户的真实使用数据