AI 写了 90% 的代码之后，企业才真正开始补课

2026-06-29

作者 / 来源：中智凯灵 / AiDD

——从字节的 AI Coding 实践看，研发提效的下一站不是“更多代码”，而是交付系统重构

▼

6 月 23 日，火山引擎 Force 原动力大会上，字节跳动技术副总裁洪定坤分享了一组很有冲击力的数据：

过去一年，字节跳动的 AI 代码贡献率增长了 6 倍多，AI Coding 上的 Token 消耗增长了 5 倍，AI 代码合入率增长超过 2 倍。

如果只看这些数字，很多人会自然得出一个结论：AI Coding 已经进入企业研发的主战场。

但真正值得注意的，不是这些增长本身，而是字节在增长之后看到的反常识问题。

图 1：洪定坤《AI Coding 的实践与探索》：火山引擎 Force 原动力大会现场演讲画面

TRAE 团队本身就在做 AI Coding 工具，也非常激进地使用 AI Coding。过去半年，团队里超过 90% 的代码由 AI 写出，但人均需求吞吐率只提升了 60%。

90% 的代码由 AI 生成，效率却只提升到 1.6 倍。

这个差距，可能正是企业 AI Coding 从“工具尝鲜”走向“组织能力”时，必须面对的第一道坎。

图 2：洪定坤《AI Coding 的实践与探索》：TRAE 团队 AI 代码贡献率与人均需求吞吐率对比

▍AI 代码贡献率，不该成为唯一 KPI

过去一年，很多团队衡量 AI Coding 的方式都很直观：AI 写了多少代码、采纳了多少代码、代码贡献率有多高。

这些指标当然有用。它们能说明一个团队是否真的开始使用 AI，也能反映工具是否进入日常研发流程。

但问题在于，如果企业只盯着“AI 写了多少代码”，很容易把研发提效误解成代码生成量的竞赛。

代码生成得越多，不代表需求交付越快；AI 采纳率越高，也不代表系统质量越好。

一个真实需求从提出到上线，中间经过的环节远不止写代码：需求澄清、方案设计、架构约束、代码复用、测试验证、安全合规、上线发布、线上观察，每一步都会影响最终效率。

AI 把“写代码”这一步压缩了，但如果需求仍然反复变更，测试仍然靠人补，代码仍然难以进入既有架构，发布仍然需要大量人工兜底，整体效率就不会线性提升。

所以，AI Coding 的第一个管理误区，是把“代码贡献率”当成了“生产力提升率”。

真正应该被衡量的，不只是 AI 写了多少代码，而是需求吞吐率有没有提高，返工有没有减少，缺陷有没有下降，交付周期有没有缩短，跨角色协作成本有没有降低。

企业要的不是更多代码，而是更稳定、更快、更可控的交付。

▍功能正确，不等于工程可用

Vibe Coding 让很多人第一次感受到“自然语言写软件”的速度。

有想法，告诉 AI；生成一版，跑起来；哪里不对，再继续改。对于个人项目、临时工具、原型验证，这种方式非常有效。

但一旦进入企业生产环境，问题就出现了。

字节在演讲中提到一个实验：针对一个真实的中等复杂度需求，选取 3 个主流 Coding 模型和 3 个主流 Agent 框架，两两组合，用同样的 Prompt 跑 100 次，总计 900 次。

只看“功能是否基本正确”，所有组合都超过 80%。这说明今天的 AI Coding 模型，已经具备相当不错的功能实现能力。

但如果继续看 UI 易用性、可靠性、可维护性、性能、兼容性等工程指标，结果就明显下降。有的代码没有复用仓库已有组件，有的异常处理不规范，有的改动影响历史功能，有的实现方式不符合团队工程规范。

换句话说，AI 能把功能写出来，但不一定能把软件交付出来。

图 3：洪定坤《AI Coding 的实践与探索》：Vibe Coding 实验中“功能正确”与工程可用指标的差异

这正是很多企业在 AI Coding 落地中最容易忽视的地方：Demo 能跑，不等于系统能上线；页面能看，不等于业务能用；功能正确，不等于工程可用。

过去，软件工程里的很多“慢”，其实是在为长期可维护性付费。架构规范、测试体系、异常处理、安全边界、权限控制、性能优化，这些东西不会在第一眼演示时显得惊艳，却决定系统能不能长期运行。

AI Coding 的价值，不应该停在“更快写出一段代码”。真正的价值，是让 AI 在工程约束中完成任务。

▍Harness 不是框架，而是企业 AI 研发基建

这也是为什么字节在演讲中重点提到了 Harness。

今天很多人讨论 Harness，会自然想到 Agent 框架、工具调用、多 Agent 协作。但在真实业务里，Harness 不只是一个框架选择问题。

它更像一套企业 AI 研发基建。

这里面包括上下文工程、架构约束、团队知识沉淀、历史技术债梳理、组件规范、测试验证、权限控制、质量标准和交付流程。

没有这些基建，AI 就像一个很聪明但不了解现场的临时外援。它能写代码，但不知道团队过去为什么这样设计；它能实现功能，但不知道哪些组件必须复用；它能生成方案，但不知道哪些边界不能越过。

一旦把这些上下文、规范和验证机制补上，AI Coding 的表现就会完全不同。

字节的实验也说明了这一点：在引入 Harness 基建后，功能正确率从 80% 左右提升到接近 90%，更关键的是，可交付性从原来的 40 到 60 分，普遍提升到 80 分左右。

图 4：洪定坤《AI Coding 的实践与探索》：引入 Harness 基建后，可交付性明显提升

这说明 AI Coding 的真正分水岭，不是“用了哪个模型”，也不只是“选了哪个 Agent 框架”，而是企业有没有把自己的工程知识、业务上下文和交付标准沉淀成 AI 可以理解、可以调用、可以遵守的系统。

模型能力会越来越普惠，但企业自己的上下文不会自动生成。

谁能更早把组织知识变成 AI 可用的工程资产，谁就更容易把 AI Coding 从个人技巧变成组织能力。

▍人人都能写代码之后，协作规则要重建

AI Coding 带来的另一个变化，是代码生产能力开始从工程师扩散到产品、设计、运营、市场，甚至更多业务角色。

这当然是好事。

过去，一个想法要变成可交互原型，需要经过文档、设计、研发排期、前端还原等一长串流程。现在，一个产品同学可能自己就能用 AI 做出页面和流程。沟通成本会降低，想法验证会加快，更多角色也能直接参与产品创造。

但代码生产门槛降低，不代表系统复杂度降低。

产品同学用 AI 做出来的代码能跑，不代表它可以直接进入生产仓库；设计师生成的前端代码看起来还原，不代表它符合组件规范；运营做出的小工具能用，不代表它满足权限、安全和稳定性要求。

这里的挑战不是“非工程师能不能写代码”，而是“不同角色生成的代码如何进入统一交付流程”。

未来的企业研发组织，可能会出现一种新的分工：

更多人负责提出问题、构造原型、验证想法；工程师则从单纯的 Code Writer，转向 Reviewer、Architect 和 Problem Solver。

工程师的价值不会消失，但会从“亲手写每一行代码”，转向“定义约束、设计系统、把关质量、治理复杂度”。

这要求企业重新定义协作规则：谁可以生成代码，谁可以提交代码，谁负责验证，谁对线上结果负责，什么样的产出可以进入主干，什么样的产出只能停留在原型阶段。

AI 让代码生产变得更开放，但企业交付仍然需要秩序。

▍AI Coding 的下一站，是系统化 AI Development

字节在演讲中提到一个方向：系统化 AI Development。

这句话很关键。

因为 AI Coding 如果只停留在“写代码”，它解决的只是研发链条上的局部问题。真正的企业级提效，是让 AI 进入从需求到上线的完整流程。

比如，AI 可以基于当前上下文编写 Spec，可以根据功能需求生成实现方案，可以自动打开浏览器验证功能，可以自动修复 Bug，可以辅助提交和发布。

这时，AI 不再只是一个“代码生成器”，而开始成为研发流程中的协作节点。

再往后，AI 还会从 Coding 延伸到 Work。它不只服务工程师，也服务产品、设计、运营、市场和企业里的更多知识工作者。

这也是为什么 AI Coding 的讨论，最终一定会走向组织问题。

个体用了 AI，可能会很快；但组织要真正变快，需要流程、工具、知识、规范、权限和评估一起变化。

否则，AI 写代码越快，团队可能越忙于 review、返工、修 Bug 和处理技术债。

▍结语：企业要补的课，不是 AI 工具课

字节这次分享真正有价值的地方，不在于告诉大家“AI Coding 很强”，而在于把一个更真实的问题摆了出来：

当 AI 已经能写出大部分代码之后，企业研发到底还缺什么？

答案不是再多买一个工具，也不是再追一个更高的代码贡献率。

企业真正要补的课，是交付系统。

要重新设计指标，避免把 AI 代码量误当成生产力；要补齐 Harness，让 AI 在真实工程约束中工作；要重建协作规则，让更多角色参与创造，同时让产出进入统一治理；要把个人经验沉淀为组织资产，让 AI 不只是某些高手的外挂，而是整个团队可以复用的能力。

AI Coding 的上半场，是个人提效。

下半场，是组织重构。

而这也正是 AiDD 一直关注的问题：AI 进入企业之后，真正改变的从来不只是工具，而是研发方式、交付机制和组织能力。

如果说过去一年，企业还在问“AI 会不会写代码”，那么接下来更重要的问题会变成：

当 AI 已经会写代码，我们的组织准备好接住它了吗？

·Agent 从 Demo 到生产级，中间到底差什么？

·FDE 不是驻场开发：AI 时代的新型工程角色到底新在哪里？

·别再只看写了多少代码：AI 研发提效到底该怎么量？

·为什么FDE成了今年最火的岗位：Palantir 给企业 AI 的启示

·AI赋能研发组织提效的效果度量：从“个人效率”走向“组织交付”的新标尺

·从跑分到护栏：AI Agent 规模化落地，为什么必须先补上质量底座？

·从 AI Coding 到 Agentic Engineering：研发提效正在进入第二阶段

·为什么企业需要 Spec Driven：AI 写代码越快，需求越要结构化

·知识库、Skills 与组织资产：AI 能力如何从一次性使用变成持续复利

下一站

生产级 Agent 的故事，上海站只是开篇。

当企业从“试一试智能体”进入“把智能体放进真实业务”，更需要讨论的就不只是模型和工具，而是评估、可观测、权限、运营和组织级交付能力。

2026 年 AiDD 北京站，将继续关注 AI 研发、Agent 工程化、企业智能体和组织级落地。FDE 深度工作坊也会把这些问题带到更具体的实操场景里：如何识别真实场景，如何设计 PoC，如何搭建知识库和智能体，如何建立评估与反馈闭环，并把 AI 项目推向真实使用。

北京，我们继续聊。

点这里↓↓↓记得关注标星哦~

上一篇 : 一张清单：AI 项目上线前的 8 个 Go/No-Go 追问下一篇 : 暂无返回列表