社内AIヘルプデスク正答率80%達成 RAG精度改善の軌跡

はじめに

こんにちは。DeNA IT戦略部の森嶋です。

DeNAは今、「AIオールイン」を掲げ、全社を挙げてAIという新たなテクノロジーの力を活用する「AIジャーニー」を歩み始めています。これは業務のあり方を根本から見つめ直し、会社全体の未来を創っていくための挑戦です。

今回は、その中でも重要な柱の一つである「AIによる全社の生産性向上」に焦点を当てます。「業務量を半分に、生産性を倍に」という高い目標を実現するため、私たちはまず最初に社内の問い合わせ対応をAIで完結させることを目指しました。

「IT領域の質問に対する回答精度100％」という目標を立て、私たちはどのように挑戦し、着実にゴールへ近づいているのか。

本記事はAIの回答精度、つまりRAGの精度向上について、私たちが試行錯誤から得た実践的な学びと具体的なアプローチを包み隠さずご紹介します。

同様の課題を抱える皆様に、私たちの経験が少しでもお役に立てれば幸いです。なお、システム側の詳細な対応については、別ブログで公開予定です。

社内ヘルプデスク業務の現状と課題

日々の業務の中で、PCの操作方法、各種申請手続き、アカウント作成、トラブルシューティングなど、社内からの問い合わせ対応に多くの時間を費やしていませんか？

たとえAIチャットボットを導入したとしても簡単な問い合わせにしか対応できず、複雑な内容は人間がフォローしている、という現状に直面している方もいらっしゃるのではないでしょうか。

現在、DeNAではSlackとAIを組み合わせた社内問合せツール「Findout」を利用していますが、私たちも同様の課題を抱えていました。

このツールはSlackとAIを組み合わせることでユーザーは普段使い慣れたSlackから気軽に質問を投げかけ、FindoutのAIから即座に回答を得られるようになり、ユーザー体験は飛躍的に向上しました。

しかしAIが正しい回答ができない場合もあり、結果的にヘルプデスク担当者のリソースが割かれ、本来注力すべき付加価値の高い業務に集中できない状況にありました。

そこで私たちは、AIの力を最大限に活用してヘルプデスク業務の抜本的な改善に着手しました。

IT領域の質問回答100%への挑戦

この挑戦を始めるにあたり、まず「IT領域の質問」が具体的に何を指すのかというスコープを定義しました。これにより、FindoutのAIが対応すべき範囲を明確にし、目標達成までのアクションのブレを防ぐことができました。

スコープ内として定義した問い合わせ

操作質問:「〇〇の方法は？」「〇〇の設定は？」「〇〇はどうすればよいか」など、既存のツール、機能、システムの利用方法に関する疑問や不明点を尋ねる問い合わせです。
トラブルシュート:「〇〇がフリーズする」「〇〇が開けない」「エラーになった」「〇〇が起動しない」「〇〇に接続できない」など、具体的な事象やエラーが発生し、その解決方法や原因の特定を求める問い合わせです。

スコープ外とした問い合わせ

作業依頼:「〇〇の権限を付けたい」「〇〇のオーナーを変えたい」「〇〇を削除したい」「〇〇を追加したい」「〇〇を確認してほしい」など、IT部門や関連部署が何らかの具体的な作業を必要とする問い合わせです。

上記で明確に分けきれない問い合わせについては、実際の問い合わせ内容と回答内容を精査し、作業依頼以外の内容であればスコープ対象として扱うという運用ルールを設けました。

このようにスコープを明確に定義することこそが、目標達成に向けた第一歩となります。

RAG精度改善への具体的なアプローチ

DeNAの社内問合せツール「Findout」のAIは、RAG（Retrieval-Augmented Generation）の仕組みを利用して社内ナレッジから回答を生成しています。そのため、AIの回答精度を高めるためには、RAGの精度を向上させる必要があります。

ここでは、そのRAGの精度改善に向けて私たちが実践した具体的なアプローチをステップごとにご紹介します。

AIの回答精度に対して会社の求める水準を見据えて評価基準を設定することの重要性がここから読み取れるでしょう。

ステップ1: AI回答の評価基準設定

まずはじめに着手したのは、「どのようなAI回答なら合格と見なすか」という評価基準を明確にすることでした。

私たちの目標は「IT領域の質問に対する回答精度100％」の達成です。これは問合せ対応をAIのみで完結することを指してします。

その達成には「AIの回答のみでユーザーが問題を自己解決できること」が必要不可欠だと考えました。

これを合格の絶対条件として定め、「AIの回答をAIが評価する基準」と「AIの回答を人間が評価する基準」の2つを設けました。

これら2つの評価基準を組み合わせた理由は、多くのRAGの精度改善のための施策を実行し、評価・分析をする必要があったためです。

プロジェクトを始めた当初、RAGの精度をどう改善すればいいかまだ手探りの状態でした。そのため私たちは「施策を実行→評価・分析」を高速で何度も回し、RAGの精度向上に効果的な手段を早期に発見する必要がありました。

この作業は人の評価だけではどうしても時間がかかるため、AIにAIの回答の評価をさせることで、より短いサイクルで多くの検証を回せるようにしました。

AIの回答をAIが評価する基準

当初は3つの判断軸を定め、それぞれに点数を割り当てて合計点が一定以上ならAIの回答を合格とする方式を試しました。

判断基準.png

実際に試してみると複数の判断軸がある場合、AIの回答が不合格レベルであっても、2つの判断軸で高評価、1つの判断軸で低評価という結果になり、総合的には「合格」と判定されてしまうことがありました。

そのためこの3つの判断軸の合計点で合否を判断する方法では、AIの回答の正確な評価が難しく、決定打に欠ける結果となりました。そこで、私たちはどの判断軸のポイントが高いときに、人間の目で見ても合格と言えるのかを再検討しました。

具体的にはAIの回答から高評価のものを抽出し、3つの判断軸のうちどの軸が常に一定以上のポイントを維持しているかを確認することで、どの判断軸が有効であるかを判断しました。その結果、「正確性」のポイントが高い回答が、ユーザーの自己解決に繋がりやすく、合格となる割合も高いことが分かりました。

最終的に評価基準は正確性を唯一の判断軸として、5段階評価（0〜4点）に集約し、3点以上をAIの合否判定の合格としました。

これは前述した「AIの回答のみでユーザーが問題を自己解決できること」という観点から、AIの回答とAIの評価結果から3点以上が望ましいと判断したためです。

AIの回答をAIが評価する具体的なシステムプロンプトは以下の通りです。

評価基準.png

AIの回答を人間が評価する基準

実際に「AIの回答をAIが評価する基準」を設定をしてAIに評価をさせた結果、施策によっては点数が大幅に変化することがありました。この結果を受けて、私たちはAI評価の最終的な信頼性は人が担保するため、AIの評価に加えて人による評価を実施しました。

しかし実際に人間がAI回答を評価すると、今度はメンバーによって合否の判断にブレが発生してしまいました。これでは評価が定まらず、評価の品質を保つことができません。

そこで私たちは「AIの回答のみでユーザーが問題を自己解決できること」を実現するためには、どんな情報必要か？を検討したうえで下記の「AIの回答を人間が評価する基準」を設けました。

案内するべき正しい申請方法や連絡先が明確に伝えられていること。
トラブルシューティングの場合、一般的な対応手順が網羅的に連絡されていること。

上記の基準を設けた結果、評価者間のばらつきは解消され、評価の品質を安定化させることができました。

ステップ2: テストケースの準備と継続的な評価

評価基準を設定したら、次に必要なのはテストケースの準備です。

私たちは直近1か月の問い合わせからIT領域の「操作質問」に該当するものを抽出し、ツール上でカテゴリ化されたすべてのカテゴリを網羅するようピックアップして約100件のテストケースを作成しました。このカテゴリは主にPCやアカウント、社内で利用しているSaaSや内製システムなどを分類しています。

このテストケースを用いて、回答精度向上のための施策ごとにFindoutのAIの回答と正解の回答を比較し、合格・不合格を判定することで、回答精度が実際に向上したかを検証していきました。

実際に評価では以下の項目を設定しました。

問い合わせ内容
- ヘルプデスクに寄せられたお問合せの本文です。
正解の回答
- 質問に対してFindoutのAIが答えてほしい回答内容を指します。
- テストケース作成時にはヘルプデスク担当者とユーザーが何度かやりとりした中でも最終的に問題解決に至った回答を正解の回答としました。
精度改善中のAIの回答
- 質問内容を精度改善中のAIに投げて返ってきた回答です。
AIの評価
- 正解の回答と精度改善中のAIの回答を見比べて「AIの回答をAIが評価する基準」をもとに採点します。
人間の評価
- 質問内容に対して精度改善中のAIの回答が「AIの回答を人間が評価する基準」に当てはまっているかを判定します。

精度改善前のテストケース.png

ステップ3: 原因分析と改善策の検討

ステップ2の合否判定が終わったら、次は原因分析と改善策の検討です。

私たちはなぜFindoutのAIの回答精度が低いのか、あるいは高いのか、その傾向を徹底的に調べることに注力しました。とくに、回答のベースとなる「検索結果」の内容に焦点を当てて原因分析を行いました。

この「検索結果」にはAIが回答生成時に利用した社内のナレッジ情報が書かれています。

検索結果.png

ネガティブ分析（回答精度が低いケース）

回答が悪かったケースについて、どのような原因が考えられるかを分析しました。

ナレッジがない
- ナレッジが不足しているため、ナレッジを作成することを示しています。
正解ナレッジが学習対象外
- ナレッジがあるのにも関わらず、FindoutのAIの学習対象に含まれていない場合です。
- これは、AIの学習対象の選定が不十分であるという問題を示唆しています。
検索結果に不要な情報が含まれる
- 関連性の低い情報が多数検索結果に含まれることで、FindoutのAIが正しい情報を特定しにくくなり、回答精度が低下します。
- これは、ナレッジの整理や検索結果の絞り込みの必要性を示唆しています。
検索結果が過去のケーススタディで埋もれている
- ケーススタディとは、過去にお問合せ内容がイレギュラーで、AIが回答できなかった問い合わせと対応内容を記載した情報を指します。
- このケーススタディが既存のナレッジや汎用的な解決策よりも優先されて「検索結果」とされてしまう場合です。
- これもナレッジ同様、ケーススタディの整理と運用の見直し、そしてナレッジの質に課題があることを意味します。
問合せ内容が悪い
- AIに投げた質問文が構造化されていなく、簡潔でない場合、AIは正しく回答できません。
- これはAIへの聞き方（プロンプト）の必要性を示しています。

この分析からRAGの回答精度改善において、ナレッジの網羅性だけでなく学習対象の選定とプロンプト設計の最適化が不可欠ということが分かりました。

ポジティブ分析（回答精度が高いケース）

一方で回答が良かったケースを分析したところ、いくつかの共通した傾向が見られました。このポジティブ分析は、改善の方向性を見定める上で非常に参考になりました。

マニュアルやトラブルシュートのナレッジが充実している
- 良い回答を生成できている質問の多くは、それに関連するマニュアルやトラブルシューティングのナレッジが非常に整備されていました。
充実したナレッジによりAIが推論を用いた回答ができる
- ナレッジが豊富かつ質の高い場合、AIは単に情報を提示するだけでなく、複数の情報を組み合わせて論理的な推論を行い、より的確な回答を生成できる傾向がありました。
構造化されたナレッジが一問一答ページよりAI回答精度向上に寄与
- 単なるQ&A形式の一問一答ページよりも、体系的に整理され、構造化されたナレッジの方がAIの回答精度向上に有効であることが判明しました。

この分析からRAGの回答精度改善において、ナレッジの質と構造が極めて重要であるという確信を得ることができました。

分析を元に作成した施策の実践結果

ここまで、社内問合せツール「Findout」のAIの回答精度改善に向けた具体的なアプローチをご紹介しました。

この一連の取り組みを通じて、私たちは多くの精度改善に繋がる施策の立案と実践、結果を得ることができました。

AIの学習対象の選定

単に学習対象を増やせば良いというわけではありません。回答が重複したり、無関係な情報が混ざることでノイズとなり、かえって回答精度が低下する場合があります。

本当に学習すべきナレッジを厳選することが大切です。

具体的な有効例としてFindoutのAIは主にConfluenceをナレッジとしており、学習対象のスペースを削減することでAIの回答が著しく改善されるケースがありました。

実際に先程のテストケースの場合、学習対象精査前はAIの回答がアンインストールと再インストールを案内していなかったため不合格としましたが、学習対象精査後は下図のように回答が改善されました。

精度改善後のテストケース.png

ナレッジの質の追求

多くの原因分析を経て、ナレッジの質が回答精度に最も直結するという結論に至りました。

良かった点として回答精度の悪いケースの原因を追究するのではなく、精度の良いケースを分析し、そのナレッジの「良い書き方」を参考にしたことが挙げられます。

このアプローチによって、改善のヒントを得ることができ、より本質的な結論が導き出されました。

具体的な有効例として「良い書き方」を参考ナレッジテンプレートを作成し、それに沿ってIT領域のPC関連ナレッジを修正した結果、該当の問合せに対するAI回答は改善されました。

これらの施策を実践した結果、50％前後だったFindoutのAIの正答率は2025年10月時点で80%を達成することができました。

この改善によりヘルプデスク担当者の業務負担が大幅に軽減され、ユーザーは問題解決までの時間を短縮できるようになりました。担当者はより戦略的で付加価値の高い業務に集中できています。

また、お問合せをされたユーザーからは「精度が良くなって、めっちゃ体験が良い！」といった嬉しい声も寄せられています。

まとめ

ここまで、社内問合せツール「Findout」のAIの回答精度改善に向けた具体的なアプローチをご紹介しました。

この一連の取り組みを通じて、私たちは多くの学びを得ることができました。とくに、下記の3つが重要だと強く実感しています。

1.AI回答を評価する仕組みを回す

RAGの精度改善のためには「施策実行→評価・分析」のサイクルを高速で何度も回す必要があります。
それを実現するためにも評価にAIを活用することが理想的です。

2.テストケースによる継続的な検証と分析

定義されたスコープと評価基準に基づき、網羅的なテストケースで施策ごとにAIの回答を継続的に検証することが、改善の確かな道を築きます。

3.分析結果を元にした精度改善施策を打つ

AIの回答精度改善に向けたアプローチをした結果、当社ではナレッジの「量」だけでなく「質」と「選定」が極めて大切だということが分かりました。
この分析結果を受けて実際に当社のナレッジを見直したことでFindoutのAIの回答は格段に良くなりました。

ここまでの内容でご理解いただけたかと思いますが、この活動は地道で時間のかかる作業です。しかし、この努力こそがAIを真に役立つ存在に変えるための唯一の道です。

この結果は、DeNA全体の生産性向上に大きく貢献し、同様の課題を抱える他社の情報システム部門でも再現可能であると確信しています。

ぜひ、本記事が皆さんのAIヘルプデスク導入・改善の具体的なヒントとなれば幸いです。

おわりに

いかがでしたでしょうか？

私たちの挑戦はまだ道半ばですが、「IT領域の質問に対する回答精度100％」という目標に向け、今回ご紹介した改善サイクルを回しながらナレッジマネジメントの高度化に取り組んでいます。

今回ご紹介したこの道のりは決して平坦ではありませんが、私たちの経験が同じ課題に直面している皆さんの背中をそっと押すことができたら、これほど嬉しいことはありません。

最後までお読みいただき、本当にありがとうございました！

社内AIヘルプデスク 正答率80%達成 RAG精度改善の軌跡