← 返回博客

代币烧毁是新的代码行数

用代币支出来衡量人工智能的采用情况,与我们在上世纪 90 年代用代码行数来衡量人工智能的错误如出一辙。同样的缺陷,新的仪表盘,更高的风险。

随想录
代币烧毁是新的代码行数

我的 LinkedIn feed 几周来一直充斥着这些术语。我的 X 时间轴上也是。人们像发布进度报告一样发布代币花费截图。创业公司创始人吹嘘他们上个月在克劳德代码上花了 1.6 万美元,下个月的目标是 6 万美元。排行榜。排行榜。代币传奇"、"人工智能之神 "等头衔。

上周,这一切达到了临界点。福布斯》报道了席卷硅谷的 "tokenmaxxing "运动,在这场运动中,各家公司都在比拼谁烧的人工智能代币最多。Jensen Huang 在 "All-In "播客中说道:_"那个 50 万美元的工程师,到了年底,我会问他:'你在代币上花了多少钱?'如果他说'5000 美元',我就会勃然大怒。如果这位 50 万美元的工程师没有消费至少 25 万美元的代币,我将深感震惊。

随后,《财富》报道一名 Meta 员工建立了一个名为 "Claudeonomics "的内部排行榜,跟踪公司 85000 多名员工的代币消耗情况。排名靠前的用户可以获得头衔。在 30 天的时间里,代币总使用量达到 60 万亿。最高个人用户的平均使用量为 2810 亿。马克-扎克伯格甚至没有进入前 250 名。与此同时,Meta 首席技术官安德鲁-博斯沃思(Andrew Bosworth)公开表示,他最好的工程师用代币支付的薪水相当于他的工资,但运行效率却 "高出 5 到 10 倍"。"这就像,这是很容易赚到的钱,"博斯沃思说。"没有限制"。

我在软件行业工作了很长时间,知道这里发生了什么。这是价格更高的 "代码行"。

我们以前来过这里

2003 年,马丁-福勒(Martin Fowler)写了一篇关于软件生产率为何无法衡量的短文,这或许应该成为每位技术主管的必读文章。他对代码行数的论证非常精确:

"我最恼火的是基于代码行数的生产率研究。任何优秀的开发人员都知道,他们可以在代码行数差异巨大的情况下编写相同的代码"。

只要你大声说出来,问题就显而易见了。LOC 衡量的是活动,而不是产出。两个开发人员可以创建相同的功能:一个写了 1200 行,另一个写了 80 行。简洁的那个人可能构建了一个更好的系统。而在 LOC 制度下,啰嗦的那个看起来更有生产力。

根据 LOC 进行评估的团队做出了理性的回应。他们写了更多行。他们复制粘贴,而不是抽象化。他们避免重构,因为删除代码会损害他们的数据。指标影响了行为,但并不是为了更好的软件。更多的代码。更糟糕的系统。

2023 年,麦肯锡发表了一篇文章,声称已经破解了客观的开发人员生产力衡量标准。Gergely Orosz 和 Kent Beck 的详尽回应 指出了同样的缺陷:麦肯锡的几乎所有指标都在衡量努力和产出,而不是结果。肯特-贝克讲述了目睹 Facebook 内部开发人员情绪调查从有用的反馈演变成经理与工程师谈判以获得更高分的过程。这就是激励代理指标的结果。分数提高了。而你真正关心的事情却没有改善。

你以为我们会吸取教训。但我们没有。

∮同样的错误,不同的单位∮

代币大爆炸的诱人逻辑是这样的:代币消耗=人工智能使用率。更多的人工智能使用率 = 团队正在使用人工智能。因此,代币消费高 = 人工智能采用率高 = 好。

这恰恰与衡量代码行数一样有缺陷,只是用的是计费仪表盘而不是提交图。为了对《福布斯》的文章公平起见,Sendbird 的首席执行官约翰-金(John Kim)基本上就是这么说的:"我们以前看过这部电影"。他指的是 20 世纪 90 年代和 2000 年代的 LOC 文化。他指出,真正的指标是人工智能生成的代码有多少能真正投入生产。代币支出 "更多的是引发话题"。我同意这一点。当话题启动器被提升为头条关键绩效指标时,问题就来了。

GitHub 的 2024 年开发者调查 发现,97% 的企业开发者在工作中使用过人工智能编码工具。不过,真正的组织采用需要明确的政策、工作流程以及与实际业务成果挂钩的可衡量成果。不仅仅是使用。不仅仅是消费。

克劳德代码背后的工程师鲍里斯-切尔尼(Boris Cherny)公开分享 说,他在一个月的工作中根本没有打开过集成开发环境,用 Opus 4.5 编写了大约 200 份 PR。这令人印象深刻。但让人印象深刻的不是这 200 个 PR 消耗了多少代币。而是它们是 200 个真正的合并贡献,其另一端是可运行的软件。

价值在于结果。代币只是让你达到目的的能量,仅此而已。

当指标成为目标

有一条原则叫古德哈特定律:当度量变成目标时,它就不再是好的度量了。软件开发的历史基本上就是古德哈特定律的博物馆。

将追踪代币作为人工智能采用的关键绩效指标,也会产生完全相同的动力。以代币消耗量为衡量标准的工程团队将消耗更多的代币。这就是激励机制的作用。想要看起来更有生产力?多运行几个代理循环。在生成输出之前,让模型进行详细推理。将每项任务都包裹在一个协调层中,调用四个工具就能完成的任务。代币花费会增加。交付的价值却不会增加。

实际上,Claudeonomics 的故事几乎立即证明了这一点。财富》杂志指出,"一些员工让人工智能代理工作数小时,以最大限度地提高代币使用率"。就是这样。古德哈特定律在一家本应处于人工智能驱动生产力前沿的公司内部得到了实时执行。在排行榜被关闭之前,它可能已经存在了几个星期,员工们已经开始通过循环运行代理来玩弄它。这个指标已经使用了三个星期,但它已经无法衡量它应该衡量的东西。

任何开发人员读到这里,大概都能想到五种夸大令牌使用指标的方法,但对任何人都没有好处。我就不一一列举了。但是,如果我能想到五种,那么被测量的工程师也能想到五种。

Andrej Karpathy 将 软件工程的当下 描述为该行业的 "9 级地震"。他说得没错。但地震并不能用耗电量来衡量。地震是用移动的东西来衡量的。

这个问题的文档版本

这不仅仅是工程团队的问题。我在知识管理中也看到了同样的动态,而这与我们 Rasepi 的情况更为接近。

"本季度我们发布了 400 份文件",这个数字在幻灯片中听起来不错。至于这些文件是否准确,是否有人读过,或者其中的信息在六个月后是否仍然真实,这些都与数字无关。你可以通过人工智能,不假思索地得出这个数字。代币辅助噪声大规模发布。

诚实的指标更难收集,但却有用得多:你的知识库有多大比例真正反映了你的系统如今是如何工作的?有多少人通过你的文档找到了正确答案?有多少人尝试过,但失败了,最后还是去问 Slack 上的人?

这些问题还没有漂亮的仪表盘。这些问题还没有漂亮的仪表盘,它们需要实际思考你希望文档为你的组织做些什么。(无独有偶,这也正是 Rasepi 的问题所在。强制过期日期的存在,正是为了让团队必须考虑内容是否仍然有效,而不是让它在高页数指标背后默默衰减)。

##应该追踪什么

"我们的人工智能投资是否有回报?"这个问题的真实答案无法从计费仪表盘上读出。

你可以用更好的问题来概括:周期时间是否有所改善?功能交付与错误报告的比例是否朝着正确的方向发展?工程师们是否报告说,他们花在判断力强的工作上的时间多了,而花在打字上的时间少了?您的文档是否与时俱进,而不是像泥沙一样堆积如山?

从应用程序接口中提取这些信息比较困难。这就需要思考你究竟希望你的团队取得什么样的成果,诚然,这是最困难的工作。但这些问题才是最重要的,因为它们涉及的是结果而不是投入。

代币支出告诉你买了多少计算。至于这些计算是否变成了有用的东西,则是完全不同的问题。如果公司不加以区分,就会建立非常昂贵的仪表盘,而这些仪表盘几乎什么也显示不出来。

我们花了数年时间优化错误的开发人员生产力指标。在企业的每份人工智能应用报告中都出现同样的错误之前,我们或许还有一个季度的时间。避免这种情况的窗口已经打开,但不会一直这样下去。

让文档保持最新。自动实现。

Rasepi 设定审核日期、跟踪内容状态,并支持40多种语言发布。

免费开始 →