古くなったドキュメントを無視するように AI に教えましょう。

社内のナレッジベースの上にAIアシスタントを配置すると、次のようになります：

新人エンジニアが尋ねます："ステージング環境はどのように設定すればいいですか？"

AIはドキュメントを検索し、3つの関連ドキュメントを見つけ、答えを合成し、自信を持って提示します。エンジニアはその指示に従います。最初の2つのステップはうまくいきます。ステップ3では、半年前に非推奨となったCLIツールを参照します。ステップ4では、誰も文書化していないマイグレーション中に置き換えられたインフラセットアップについて説明します。

エンジニアは行き詰まりました。チームチャンネルにメッセージを送ります。誰かがこう言います。AIはそれを知りませんでした。AIはそんなことは知りません。AIはただ、見つけたものすべてを取ってきて、それを真実として提示しただけなのです。

**これは、すべてのRAGシステム、すべてのAI検索ツール、そしてあなたが社内のドキュメントで使ったことのあるすべてのLLMを搭載したアシスタントのデフォルトの動作です。彼らはすべてを取得します。彼らは区別しません。彼らは古いものから新しいものを見分けることができません。

そして、AIツールに対する信頼は、ツールがそれを構築するよりも早く破壊されています。

なぜAIアシスタントは品質を見抜けないのか

大規模な言語モデルと検索支援生成（RAG）システムは、クエリに意味的に関連するテキストを見つけ、そのテキストを使って答えを生成します。通常、関連性のマッチングは優れています。ベクトル検索と埋め込みは、質問に関連するコンテンツを見つけることに純粋に優れています。

しかし、関連性と信頼性は同じではありません。

Kubernetesのデプロイプロセスについて2023年に書かれたドキュメントは、"本番環境へのデプロイ方法は？"という質問と非常に関連性があります。また、2024年に別のプラットフォームに移行した場合は、完全に間違っています。AIは関連するテキストを見ます。リンク切れで読者がゼロの18ヶ月前のドキュメントを見ることはありません。

ほとんどのAIシステムはランキングシグナルを1つしか持っていません：**クエリとの意味的類似性。それだけです：

この文書が最後に見直されたのはいつですか？
リンクはまだ有効か？
この文書を実際に読んでいる人はいますか？
コンテンツが古いとして読者からフラグが立てられていないか？
これは草案ですか、アーカイブされたページですか、それとも最新の文書ですか？
この文書が複数の言語で存在する場合、翻訳は最新ですか？

これらのシグナルがなければ、AIは余計なステップを踏んでキーワードマッチングを行っていることになります。確かに印象的なキーワードマッチングですが、基本的に、AIが返す答えが信頼できるコンテンツに基づいているかどうかをあなたに伝えることはできません。

信頼性の問題

AIツールが不確かな答えを適切な注意書きとともに提示してくれるのであれば、これほど危険なことはありません。しかし、そうではありません。LLMはそうはいきません。LLMは、原文が最新のものであろうと古代のものであろうと、流暢で自信に満ちた文章を生成します。

ウィキの記事を読む人間は、その記事が古く見えることに気づくかもしれません。ページレイアウトが古い。スクリーンショットはもう存在しないUIを示しています。一番下に "これは時代遅れです "というコメントがあります。人間は判断を下すことができます。

AIにはできません。AIはテキストを読み、それを他のテキストと同等に処理し、権威的に聞こえる答えを生成します。ユーザー、特に現在のプロセスを知らない新入社員は、それを疑う理由がありません。

**AIが自信ありげに聞こえれば聞こえるほど、陳腐なソースが与えるダメージは大きくなります。

AIが実際に必要とするもの

AIアシスタントがあなたの知識ベースから信頼できる答えを出すためには、テキストや埋め込み以上のものが必要です。どの文書がソースとして使用する価値があるかを示すメタデータが必要です。具体的には

1.鮮度スコア

ドキュメントが今どのくらい健全かを表す数値信号。最終編集日ではありません。真の鮮度スコアは、レビュー状況、リンクの健全性、読者数、翻訳アライメント、文脈ドリフトを1つの数値にまとめたものです。

ある文書がしきい値（例えば100点満点中70点）を上回ると、AIの回答ソースとして使用する資格があります。しきい値を下回ると除外されます。例外はありません。

このたった一つのメカニズムが、AIの誤答の中で最も危険なクラスである、古くなったソースに基づく確信犯的な誤答を排除します。

2.期限切れステータス

この文書は現在レビュー期限内ですか、それとも再承認されずに期限切れですか？期限切れの文書は、その内容がクエリにどれだけ関連しているかにかかわらず、優先順位を大きく下げるか、完全に除外してください。

ラズパイでは、期限切れの文書にはフラグが立てられ、鮮度スコアは自動的に下がります。ナレッジベースを照会するAIシステムは、このステータスを確認し、それに基づいて行動することができます。

3.分類ラベル

すべての文書が同じ目的を果たすわけではありません。草稿はソースとして使用すべきではありません。アーカイブされた文書はAIの回答に表示されるべきではありません。社内専用文書は、社外向けツールからのクエリに表示されるべきではありません。

分類ラベルは、AIにどのような文書を見ているかというコンテキストを与えます：

Published.**最新、承認済み、安全に使用可能
Draft.**作業中、引用されるべきではありません。
有効期限切れ、再承認待ち。
Archived. もはやアクティブではありません、参考のためにのみ保管されています。
Internal / External. 可視範囲を制御します。

AIアシスタントがクエリを処理する際、コンテンツの関連性を見る前に分類によってフィルタリングすることができます。クエリに完全に一致するドラフト文書は、決して回答として提供されるべきではありません。

4.言語レベルのシグナル

ナレッジベースが多言語である場合、AIは引き出されているバージョンが最新かどうかを知る必要があります。英語のソースから3ヶ月遅れているフランス語の翻訳は、フランス語では技術的に適切ですが、情報が古い可能性があります。

ラセピは言語レベルで鮮度を追跡します。各翻訳は、その翻訳が最後に更新されてからソースブロックが変更されたかどうかに基づいて、独自のスコアを持ちます。フランス語のナレッジベースを照会するAIは、フランス語版の文書が古いと判断し、次のいずれかを実行できます：

英語ソース（最新）にフォールバックします。
フランス語版が古くなっている可能性があるという注意書きを含めます。
文書を完全に除外

5.読者シグナル

複数の読者がそのドキュメントに古いとフラグを立てた場合、そのシグナルはAIの回答におけるそのドキュメントのウェイトを下げるはずです。クラウドソーシングの品質シグナルはノイズが多いですが、特に他の鮮度メトリクスと組み合わせた場合は価値があります。

実際にどのように機能するか

AIアシスタントがRasepiの知識ベースに問い合わせをしたときに何が起こるかを見てみましょう：

クエリ: "午前2時のP1インシデントを処理するプロセスは何ですか？"

Step 1: Retrieval with filtering. システムは、意味的に関連する文書を検索します。ランキングの前に、フィルタリングを行います：

鮮度スコアがしきい値以下の文書
再承認されていない期限切れ文書
下書きやアーカイブされたコンテンツ
言語バージョンが古い文書（クエリが主要言語以外の場合）

**残りの文書の中で、鮮度スコアが高いものが上位にランクされます。たとえ72点の文書の方が意味的類似度が多少高くても、94点の文書は72点の文書を上回ります。

**AIは、フィルタリングされ、鮮度ランク付けされたソースから回答を生成します。すべてのソースは、その鮮度スコアが見えるように引用されます。

ステップ 4: 新鮮さの警告. 最も利用可能なソースが鮮度スコアの境界線上にある場合、AI は注意書きを含めます: _"注意: この回答の主なソースは、60 日前に最終レビューされました。チームに確認してください。

これをデフォルトの動作と比較してみましょう：関連するテキストを見つけ、自信のある答えを生成し、最善を望みます。

これをしないとどうなるか

フィルタリングされていない知識ベースで動作するAIシステムの結果は予測可能で高価です：

**新入社員の混乱.**社内ドキュメントに対する最も一般的なAIのユースケースは、オンボーディングです。新入社員は、定義上、何が最新で何が古いかわかりません。彼らはAIを信頼します。AIはすべてを信頼します。古くなったドキュメントは、自信を持って提供されます。

**AIアシスタントが古い文書を使って規制プロセスに関するガイダンスを提供した場合、そのアドバイスは間違っているだけでなく、コンプライアンス違反かもしれません。「AIに言われたから」は監査では通用しません。

**AIが間違った回答をするたびに、ユーザーの信頼は少しずつ低下していきます。3、4回ひどい経験をすると、ユーザーはAIを使わなくなります。AIツールへの投資が価値をもたらさないのは、基礎となるコンテンツが信頼に足るものではなかったからです。

**シャドウ・ナレッジ.**公式の知識ベース（とその上に構築されたAI）に対する信頼を失うと、人々は自分自身で知識を作り出します：Slackメッセージ、個人的なメモ、会議で共有される部族的知識。Slackメッセージ、個人的なメモ、会議で共有される部族的な知識などです。ウィキが防ぐはずだった断片化は、異なるだけでとにかく起こります。

修正はモデルではなくソースで

より良いプロンプト、より洗練されたRAGパイプライン、テキストだけからどうにかして陳腐化を検出できる微調整されたモデル。これは間違ったアプローチです。

解決策はソースにあります。ドキュメントが現在の状態に関する豊富で正確なメタデータ（鮮度スコア、有効期限切れステータス、分類、言語アライメント、読者シグナル）を持っていれば、どんなAIシステムもそのメタデータを使ってより良い判断を下すことができます。より賢いモデルが必要なのではありません。より賢い文書が必要なのです。

これがラズパイが提供するものです：

すべての文書は、リンクの健全性、読者数、レビュー状況などに基づいて継続的に更新されるライブ鮮度スコア**を持ちます。
全ての文書には有効期限**があり、文書が到着するとレビューが開始されます。
すべての文書には分類**（公開、ドラフト、レビュー中、アーカイブ）があります。
すべての言語バージョンには、独自の鮮度シグナルがあるため、古くなった翻訳は個別に検出されます。
読者フラグと相互参照追跡は、追加の品質シグナルを追加します。

AIシステムがラセピのナレッジベースに問い合わせると、これらのメタデータがすべて利用できます。AIは文書が信頼できるかどうかを推測する必要はありません。文書が教えてくれます。

実用的な出発点

今日、知識ベースでAIアシスタントを稼動させれば、30分で問題の評価を始めることができます：

1.**AIアシスタントにあなたが答えを知っている10の質問をします。おそらく、10個のうち少なくとも2-3個は、古いコンテンツに基づいていることがわかります。

2.**AIが出したそれぞれの答えについて、ソース文書を見てください。最後に見直されたのはいつですか？リンクは有効ですか？自分で読んでも信用できますか？

3.**最も古く、最も放置されている文書で、検索結果にまだ表示されているものを見つけてください。AIにそれを表示するような質問をしてください。AIはそれを使いますか？ほぼ間違いなく使います。

4.**あなたのAIアシスタントは1日に何件のクエリを処理しますか？もし回答の20～30%が古くなったコンテンツに基づいているとしたら、無駄な時間、間違った判断、信頼の喪失という点で、どれだけのコストがかかるでしょうか？

AIアシスタントが優れているのは、その上に構築されたコンテンツだけです。現在、AIアシスタントのほとんどは、ナレッジベース内のすべてのドキュメントを等しく有効なものとして扱っています。昨日レビューされた文書も、2年間誰も触っていない文書も、すべてを取得し、同じ自信をもって提示します。

それはモデルの問題ではありません。データ品質の問題なのです。解決策は簡単です。AIツールに何を信頼すべきかを伝えるメタデータを文書に与えることです。

AIアシスタントは、18ヶ月間誰もレビューしていない文書から得た答えに自信を持つべきではありません。適切なシグナルがあれば、そんなことはありません。

ラセピは、すべての文書に、鮮度、有効期限、分類、言語アライメントといった独自の信頼スコアを持たせます。AIツールはナレッジベースにクエリーを行い、コンテンツだけでなくコンテキストも取得します。信頼できる情報源は浮上します。古いものは出てきません。これが、AIを活用したドキュメントのあるべき姿です。

ラセピとAIツールの連携はこちら→