私のLinkedInのフィードは、この数週間、技術用語でいっぱいです。私のXのタイムラインも。トークンを使ったスクリーンショットを進捗報告のように投稿する人たち。先月クロードコードに1万6千ドル使って、次は6万ドルを目指すと自慢するスタートアップの創業者たち。リーダーボード。ランキング。"トークン伝説 "や "AI神 "のような称号。
そして先週、それは臨界点に達しました。フォーブスは、シリコンバレーを席巻している "tokenmaxxing "ムーブメント(https://www.forbes.com/sites/richardnieva/2026/03/31/the-ai-gods-spending-as-much-as-they-can-on-ai-tokens/)について報道しました。ジェンセン・フアンはAll-Inのポッドキャストに出演し、次のように述べました:その50万ドルのエンジニアに、年末に『トークンでいくら使ったの?もしその人が『5,000ドル』と答えたら、私は別のことをします。その50万ドルのエンジニアが少なくとも25万ドル相当のトークンを消費していなければ、私は深く憂慮します」_。
その後フォーチュンは、メタ社の社員が社内のリーダーボード「クロードノミクス」を構築し、同社の85,000人以上の社員全体のトークン消費を追跡していたことを報告。トップユーザーには称号が与えられます。30日間で、総使用量は60兆トークンに達しました。個人ユーザーのトップは平均2,810億。マーク・ザッカーバーグはトップ250にも入りませんでした。一方、MetaのCTOであるアンドリュー・ボスワース氏は、彼の最高のエンジニアは、彼の給料に相当する額をトークンで使っているが、"5倍から10倍生産性が高い "と公言していました。「ボズワース氏は、「これは簡単なお金です。"上限なし"
私はソフトウェアに長く携わっているので、ここで何が起きているのか理解できます。これは "コードの行数 "であり、値段はもっと高い。
We've been here before
2003年、マーティン・ファウラーはなぜソフトウェアの生産性は測定できないのかについての短い文章を書きました。コード行数に関する彼の議論は的確でした:
私の最大の苛立ちの一つは、コード行数に基づく生産性の研究です。優秀な開発者なら誰でも、同じものをコーディングしてもコード行数に大きな差があることを知っています。"
この問題は、口に出して言ってみれば明らかです。LOCはアクティビティを測定するのであって、アウトプットを測定するのではありません。2人の開発者が同じ機能を作ることができます。1人は1,200行書き、もう1人は80行書きます。一方は1,200行書き、もう一方は80行書きます。LOC体制下では、冗長な方がより生産的に見えます。
LOCで評価されたチームは合理的に反応しました。彼らはより多くの行を書きました。抽象化するよりもコピーペースト。コードを削除すると数が減るので、リファクタリングを避けました。この評価基準は行動を形成しましたが、より良いソフトウェアに向かうものではありませんでした。より多くのコード。より悪いシステム。
そして2023年、McKinseyは客観的な開発者の生産性測定を解明したと主張する記事を発表しました。Gergely OroszとKent Beckの徹底的な反論は、同じ欠陥を指摘しました。ほぼすべてのマッキンゼーの指標は、成果ではなく、努力とアウトプットを測定していたのです。ケント・ベック氏は、フェイスブック社内の開発者センチメント調査が、有益なフィードバックから、より高いスコアを得るために管理職がエンジニアと交渉するようになるのを見てきたと語りました。代理指標にインセンティブを与えるとこうなります。数値は向上します。あなたが実際に気にかけていたことは改善されません。
私たちは学んだはずです。私たちは学んでいません。
同じ過ち、異なるユニット
トークン・マックスの魅惑的な論理はこうです。トークンの消費=AIの使用AIの使用率が高い=チームがAIを使用しているしたがって、トークンの消費が多い=AIの普及率が高い=良いこと。
これは、コミットグラフの代わりに課金ダッシュボードを使うだけで、コード行数を測定するのと同じような欠陥があります。そして、フォーブスの記事に対して公平であるように、SendbirdのCEOであるジョン・キムは、基本的にまさにそのように述べています:「私たちはこの映画を前に見たことがあります。彼は1990年代と2000年代のLOC文化について言及しています。本当の指標は、AIが生成したコードが実際にどれだけ生産に入るかだと彼は指摘しています。トークンの支出は、"むしろ会話のきっかけになる"」。それは同感です。会話のきっかけがKPIの見出しに昇格すると問題になります。
GitHubの2024年開発者調査によると、企業開発者の97%が、AIコーディングツールを仕事で使ったことがあることがわかりました。しかし、有意義な組織的採用には、明確なポリシー、ワークフロー、実際のビジネス成果に結びついた測定可能な成果が必要です。単なる使用ではありません。単なる消費でもありません。
Claude CodeのエンジニアであるBoris Chernyは、Opus 4.5で約200のPRを書きながら、1ヶ月の仕事の間IDEを全く開かなかったことを公に共有しています。それはすごいことです。しかし、それを印象的なものにしているのは、それらの200のPRが消費したトークンではありません。それは、200のPRが、実際に動作するソフトウェアとマージされた貢献であったということです。
価値は結果にあります。トークンはそこに到達するためのエネルギーであり、それ以上のものではありません。
評価基準が目標になるとき
グッドハートの法則と呼ばれる原則があります。ソフトウェア開発の歴史は、基本的にグッドハートの法則が作用している博物館です。
AI導入のKPIとしてトークンを追跡することは、まったく同じ力学を設定します。トークンの消費量を測定するエンジニアリングチームは、より多くのトークンを消費します。それがインセンティブというものです。より生産的に見せたいですか?もう少しエージェントループを回してください。アウトプットを生成する前に、モデルに長々と推論させましょう。すべてのタスクをオーケストレーション・レイヤーで包み込み、1つで済むところを4つのツールを呼び出します。トークンの消費は増加。提供される価値は上がりません。
実際、クロードノミクスのストーリーは、ほぼ即座にこれを証明しました。フォーチュンは、"一部の従業員は、トークンの使用量を最大化するためにAIエージェントを何時間も働かせている "と指摘しています。これです。グッドハートの法則が、AIによる生産性の最前線にいるはずの企業内で、リアルタイムで実行されているのです。リーダーボードは閉鎖される数週間前から設置され、社員はすでにエージェントをループさせてゲームをしていました。この指標は3週間前のもので、すでに測定するはずのものを測定しなくなっていました。
これを読んでいる開発者なら誰でも、トークンの使用量メトリクスを誰にも得にならないように膨らませる方法を5つ思いつくでしょう。それを列挙するつもりはありません。しかし、私が5つ思いつくのであれば、これで測定されるエンジニアも思いつくでしょう。
Andrej Karpathy氏は、ソフトウェアエンジニアリングにおける現在の瞬間を、専門職にとっての「マグニチュード9の地震」と表現しました。彼は正しい。しかし、地震は消費された電力では測られません。何が動いたかで測られるのです。
この問題のドキュメント版
これはエンジニアリングチームだけの問題ではありません。ナレッジマネジメントでも同じような動きがあります。
「今期は400のドキュメントを発行しました」というのは、スライドデッキの中では聞こえの良い数字です。しかし、それらの文書が正確かどうか、誰かが読んだかどうか、6ヶ月後もその文書に書かれている情報が正しいかどうかについては、何も語ることはできません。AIを使えば、何も考えずにこの数字を叩き出すことができます。トークンの支援によるノイズの大規模公開。
正直な指標を収集するのは難しいですが、はるかに有用です:あなたの知識ベースの何パーセントが実際にあなたのシステムが今日どのように動作するかを反映していますか?何人の人があなたのドキュメントを使って正しい答えにたどり着きましたか?何人が試行錯誤し、失敗し、代わりにSlackで誰かに聞くことになったのでしょうか?
これらの質問には、まだきれいなダッシュボードはありません。あなたの組織のためにドキュメントに何をさせたいのか、実際に考える必要があるのです。(これは、偶然ではありませんが、まさにRasepiが中心となって構築された問題です。強制的な有効期限が存在することで、高いページ数の指標の陰で黙って朽ち果てていくのではなく、コンテンツがまだ有効かどうかをチームが考えなければならないのです)
代わりに何を追跡すべきか
AIへの投資が報われているか」に対する正直な答えは、課金ダッシュボードからは読み取れません。
サイクルタイムは改善されているか?サイクルタイムは改善されていますか?エンジニアは、判断に重きを置く作業に時間を費やし、タイピングに費やす時間を減らしていると報告していますか?ドキュメンテーションは、堆積物のように蓄積されるのではなく、最新の状態に保たれていますか?
これらをAPIから引き出すのは難しい。チームから実際にどのようなアウトプットが欲しいのかを考える必要があります。しかし、これらは重要な質問であり、インプットよりもむしろ結果についてだからです。
トークンの使用量は、購入したコンピューティングの量を示します。そのコンピューティングが有用なものになったかどうかは、まったく別の問題です。この区別を維持しない企業は、ほとんど何も見せない非常に高価なダッシュボードを作ることになるでしょう。
私たちは何年もかけて、開発者の生産性に関する誤った指標を最適化してきました。同じ間違いが企業内のすべてのAI導入レポートに組み込まれるまで、あと1四半期しかありません。これを避けるための窓は開いていますが、そのままではありません。