尽管大模型对自然语言处理能力越来越强大,但在行业实际应用中,如网络智能运维等场景中,受限于不同用户输入语言指令的表达差异及可能输入偏差,AI系统实际表现往往无法让人100%满意,那么如何系统化评估AI系统的鲁棒性就成了产品上线是否成功的重要课题,什么是好的鲁棒性评测集设计?过度“扰动”和“扰动”不足,在哪“扰动”都会影响鲁棒性评价结果,如何把握好输入“扰动”是一个巨大挑战
内容大纲
1. AI产品能否成功取决于鲁棒性
1.1 AI产品好的体验首先是鲁棒性
1.2 评测鲁棒性面临的关键挑战
2. 华为NLP类AI系统鲁棒性评测探索
2.1 NLP类AI系统鲁棒性评测痛点
2.2 华为运营商领域对AI系统鲁棒性评测的理解
2.3 NLP类AI系统鲁棒性评测解决方案
3. 智能问答\NL2SQL\代码生成等典型业务场景中实践效果
3.1 智能问答场景鲁棒性评测实践效果和注意点
3.2 NL2SQL场景鲁棒性评测实践效果和注意点
3.3 代码生成场景鲁棒性评测实践效果和注意点
听众收益
了解华为对AI系统鲁棒性评测方法论,及实践中遇到的问题及解决方案