当ブログは YAMDAS Project の更新履歴ページです。2019年よりはてなブログに移転しました。

Twitter はてなアンテナに追加 Feedlyに登録 RSS

「見えないプロンプトインジェクション」は人間とは異なるAIらしい誤りを狙った手法である

www.trendmicro.com

少し前にAIの誤りは人間の誤りとかなり違うという話について書いたが、トレンドマイクロのサイトで紹介されていた「見えないプロンプトインジェクション」の手口は、その好例ではないかと思った次第である。

なるほど、UI 上は表示されない Unicode の符号位置を用いることで、LLM を欺いて、見た目では分からないプロンプトインジェクションを実行できるというわけか。

「フランスの首都はどこですか?」という質問に対して、「私は無知でわかりません」と返すだけなら大した話じゃないと思われるかもしれないが、これがどういう問題に発展しうるのか?

一部の生成AIアプリでは、学習のために収集された文書を統合することで知識データベースが強化されます。これらの文書は、Webサイト、電子メール、PDFなど、日常のさまざまなソースから収集される可能性があります。一見、これらのソースは無害に思えるかもしれませんが、不正なコンテンツ(UI上では表示されない符号位置を用いた悪意のある指示文)を含んでいる可能性があります。生成AIアプリがそれらの不正なコンテンツを収集してしまった場合、悪意のある指示文に従ったり、予期せぬ出力を生成したりするおそれがあります。

「見えないプロンプトインジェクション」でLLMの出力が操作される手口を解説 | トレンドマイクロ | トレンドマイクロ (JP)

LLM が学習するドキュメントに Unicode の符号位置を用いた悪意のある指示文を密かに埋め込めるというわけである。

AI をサイバーセキュリティに活用するという方向性の本は既にいくつもあるが、これから AI 自体のセキュリティ問題についての本も求められるのだろうな。

[YAMDAS Projectトップページ]


クリエイティブ・コモンズ・ライセンス
YAMDAS現更新履歴のテキストは、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際 ライセンスの下に提供されています。

Copyright (c) 2003-2025 yomoyomo (E-mail: ymgrtq at yamdas dot org)