议题背景:
随着人类退出编程环节乃至大部分 SDLC,研发过程变成“AI 黑盒”,导致协作过程不好管、提效成果说不清、AI 原生转型走不快,管理和衡量研发效能的老办法需要升级。我们提出将可观测性(observability)与可控制性(controllability)应用于人-智协作复杂系统,设立新的 AI 研发管理框架,包括智能体数据收集能力、指标体系和以可靠性和鲁棒性为目标的控制机制——本演讲将涵盖实现 agent 小时级长任务的实例,介绍我们基于规约(spec)和状态机 SOP 的实践,同时概览 2026 年第三版软件研发效能基准数据调研的结果与核心洞察。
内容大纲:
1. AI 原生软件工程的目标与挑战
1.1 正确的目标
1.2 AI 黑盒挑战
2. Harness 核心:可靠性设计
2.1 多基础模型智能体博弈
2.2 依据与推理
2.3 状态机 SOP
3. Agent 无人干预小时级长任务实例
3.1 新项目实现迭代
3.2 旧项目提取文档
4. Spec 的组织与表达
4.1 DIG in SDD
4.2 GEARS 语法
4.3 Spec 的复用与组合
5. 指标体系与数据收集
5.1 AI 原生指标
5.2 人-智交互指标
5.3 传统结果指标
5.4 工具链
听众收益:
1. 为技术管理者准备的新议程、新框架,摆脱琐碎冗杂的信息和管理动作
2. 耳听为虚、眼见为实,了解 agent 无人干预工作几小时的实例
3. 为软件工程师转型 AI 原生提供路线图,学习实用的 spec 方法
4. 解决 skill 遵从等问题,实现 10x 效能的 agentic 工作流程
5. 面向 AI 研发管理的新指标体系