ある金融サービス会社が、請求書からデータを抽出するための文書処理AIを導入しました。2週間後、あるサプライヤーが請求書の画像に隠しテキストを埋め込むことでシステムに誤った金額を抽出させられることを発見していました。SQLインジェクションのペイロードを書いた人はいません。メモリバッファを悪用した人もいません。この攻撃は、モデル自体が画像データを処理する方法を悪用することで成立しました。

これがAIセキュリティの核心的な課題です。攻撃対象は周囲のインフラだけではありません。モデル自体、訓練データ、動作を制御するプロンプト、そして下流システムに流れる出力がすべて対象となります。従来のサイバーセキュリティはソフトウェアを守ります。AIセキュリティはAI自体を守ります。

AIセキュリティが従来のサイバーセキュリティと異なる理由

従来のソフトウェアセキュリティは、コードを悪用する攻撃者から守ります。バッファオーバーフロー、インジェクション攻撃、認証バイパスなどです。これらの攻撃はコードが決定論的に動作するために成立し、予期しないコードパスを引き起こす入力を見つけた攻撃者が予測可能な被害を与えられます。

AIシステムは別種の脆弱性をもたらします。モデルはデータで訓練され、その訓練プロセスが操作される可能性があります。モデルは、人間には正常に見えるものの慎重に作成された敵対的サンプルによって影響を受ける方法で入力に応答します。テキストを処理するモデルは、入力に埋め込まれた意図した動作を上書きする命令を受け取る可能性があります。そしてモデル自体が、多大な商業的価値を持つ資産として窃取または複製される可能性があります。

これらの攻撃はいずれもコードのバグを見つけることを必要としません。machine learningの仕組みの特性を悪用します。

これはAIシステムに対して従来のセキュリティが無関係であることを意味しません。インフラセキュリティ、アクセス制御、セキュアなソフトウェア開発はすべて適用されます。しかし十分ではありません。AIセキュリティは、モデルの動作、訓練の完全性、推論時の操作に特有の懸念事項の層を追加します。

AIセキュリティの主要な脅威カテゴリ

敵対的攻撃は、モデルが誤った出力を生成するように入力を操作します。コンピュータビジョンでは、人間には正常に見えるが分類モデルに高い信頼度で全く誤ったラベルを返させる、ピクセルレベルで慎重に計算されたノイズを画像に追加することを意味します。テキストシステムでは、モデルが言語を表現する方法の特定の弱点を悪用する入力を作成します。これらの攻撃は、不正検出からコンテンツモデレーション、医療画像まで、入力に基づいて重大な決定を行うあらゆるAIシステムにとって重要です。

データ汚染は訓練プロセスを汚染します。攻撃者がモデルの訓練データに影響を与えられる場合、「バックドア」を作ることができます。本番環境に特定のパターンが現れるたびにモデルが誤った動作をする一方、それ以外の場合は正常に動作するというものです。ウェブからスクレイピングされたデータで訓練されたモデルは、ウェブ上に配置できるあらゆるコンテンツにさらされています。訓練データセットに対するサプライチェーン攻撃は、特に公開データやサードパーティのデータプロバイダーを使用する組織にとって増大する懸念です。

プロンプトインジェクションは、自然言語の指示に従う大規模言語モデルやその他のシステムを標的とします。攻撃者はAIが処理するコンテンツに指示を埋め込み、その埋め込まれた指示がシステムの意図した動作を上書きします。「この文書を要約して」と指示されたカスタマーサービスボットが、代わりにシステムプロンプトを公開し、コンテンツフィルターを無視し、情報を外部送信するよう指示する隠し命令が含まれた文書を受け取る可能性があります。AIシステムがツールやデータベースへのアクセスを持つエージェンティックワークフローをより多く担うようになるにつれ、プロンプトインジェクションは深刻なセキュリティ上の脅威になります。成功したインジェクション命令により、オペレーターが意図しない行動をエージェントに実行させることができます。

モデル窃取と抽出は、モデル自体を価値ある資産として標的にします。繰り返しのクエリを通じて、攻撃者はモデルの重みにアクセスすることなく、独自モデルの動作の近似を再構築し、モデルに組み込まれた知的財産を事実上窃取できます。モデルの訓練やファインチューニングに数百万を投資した組織は、十分なリソースを持つ敵対者からの真のIP窃取リスクに直面しています。

モデル逆転は訓練データに関する情報を抽出します。場合によっては、攻撃者がモデルに対してクエリを行うことで、訓練されたデータの詳細、訓練セットに情報が含まれていた個人の機密データを明らかにできます。これはデータ侵害とは異なるプライバシーリスクを生み出します。機密情報はデータベースから盗まれるのではなく、モデルから抽出されます。

AIセキュリティとAIセーフティの違い

これらの用語はよく混同されますが、異なる脅威に対処します。

AIセーフティは、整合性の失敗、エッジケース、または能力の失敗によってAIシステムが意図しない方法で動作することに関係します。セーフティは問います：敵対的な意図なしにAIが何か問題を起こしたとき何が起きるか？例には、ユーザーの幸福を犠牲にしてエンゲージメントを最適化する推薦システム、分布外入力に直面したときの堅牢性の失敗、設計者が予期しない方法で目標を達成するエージェンティックワークフローが含まれます。

AIセキュリティは意図的な攻撃に関係します。セキュリティは問います：攻撃者の利益になる方法でAIを動作させるために敵対者は何ができるか？敵対的入力などの同じ基本的な技術的概念が両方の分野に現れることがあります。しかしセーフティ研究は意図しない失敗に焦点を当て、セキュリティ研究は意図的な悪用に焦点を当てます。

どちらも重要です。本番のAIシステムは予期しない入力を適切に処理するためのセーフティエンジニアリングと、意図的な攻撃を処理するためのセキュリティエンジニアリングの両方が必要です。

企業におけるAIセキュリティの実践

AIを導入する組織にとって、セキュリティ上の考慮事項は具体的な実践に変換されます。

**導入前の脅威モデリング。**モデルが本番環境に移行する前に、公開する特定の攻撃対象を検討します。誰がモデルに入力を送信できますか？どのような行動を取れますか？動機のある攻撃者がモデルを操作することで何を得ますか？この分析により、どのセキュリティコントロールに投資する価値があるかが決まります。

**入力の検証とサニタイゼーション。**ユーザー提供のコンテンツを処理するシステムでは、入力がモデルに到達する前にフィルターを実装します。LLMベースのシステムでは、プロンプトインジェクションパターンをスクリーニングすることを意味しますが、意志の固い攻撃者に対して完全なフィルターは存在しません。文書処理システムでは、すべての文書を潜在的に敵対的なものとして扱います。

**エージェンティックシステムへのプロンプトインジェクション防御。**ツールアクセスを持つAIエージェントは特別な注意が必要です。命令空間とコンテンツ空間を分離する、エージェントがアクセスできるツールを制限する、機密性の高いアクションに人間の確認を要求するなどのアーキテクチャ上のコントロールが、成功したインジェクションの被害範囲を縮小します。多層防御が適切な考え方です。単一のコントロールで十分ということはありません。

**出力のモニタリングと異常検知。**本番環境でモデルが生成するものを追跡するAIオブザーバビリティツールは、進行中の攻撃を示す可能性のある異常な動作を検出できます。異常な出力パターン、エージェンティックシステムでの予期しないツール呼び出し、出力の統計的なドリフトはすべて監視する価値のあるシグナルです。

**モデルAPIへのアクセス制御。**モデルエンドポイントは機密資産として扱う必要があります。レート制限は抽出攻撃の実現可能性を低下させます。認証により、認可されたクライアントのみがモデルにクエリできることを保証します。ロギングにより、フォレンジック分析のための監査証跡が作成されます。

**訓練データのサプライチェーンセキュリティ。**外部データで訓練する組織は、ソフトウェアの依存関係に適用するのと同じ精査を訓練データの出所にも適用する必要があります。キュレートされ検証されたデータセットは、大きな無差別なウェブスクレイプよりも安全です。サードパーティデータが避けられない場合、バックドア動作に対する定期的なレッドチームテストが投資に値します。

規制上の側面

AIセキュリティは技術的な問題だけでなく、コンプライアンスの懸念事項になりつつあります。EU AI Actは、高リスクのAIシステムに対して敵対的攻撃に対する保護を含む適切なセキュリティ対策の実装を義務付けています。NIST AI Risk Management Frameworkは、責任あるAIガバナンスの核心コンポーネントとしてセキュリティを含んでいます。金融サービス、医療、重要インフラなどの規制業界の組織は、AIシステムが機能的であるだけでなく安全であることを証明することが求められています。

この規制上の圧力により、AIセキュリティの文書化の水準が高まっています。AIモデルカードとAI監査証跡は、モデルがどのようにセキュリティテストされたか、既知の脆弱性は何か、どのような軽減策が講じられているかをますます対処する必要があります。

AIセキュリティ能力の構築

ほとんどの組織にとって、AIセキュリティ能力は既存のセキュリティ基盤の上に構築されます。セキュリティチームはすでに脅威モデリング、セキュアなアーキテクチャ、インシデント対応を理解しています。さらに必要なのは、AI固有の脅威カテゴリとそれらをテストするために使用される技術についての知識です。

AIレッドチーミングは知識と防御の両方を開発する最も直接的な方法です。本番AIシステムに対するレッドチーム演習は、抽象的な脅威シナリオではなく、実際の導入コンテキストにおける実際の脆弱性を明らかにします。定期的にAIレッドチーミングを実施する組織は、防御と組織としての能力の両方を発展させます。

代替手段、つまり本番インシデントの後にAIセキュリティの弱点を知ることは、はるかに高コストです。

外部リソース

NIST AI Risk Management Framework - AIセキュリティ要件をカバーする米国政府のフレームワーク
OWASP Top 10 for LLM Applications - プロンプトインジェクションを含むLLMの脆弱性に関するセキュリティコミュニティの標準的なリスト
MITRE ATLAS - 実世界の攻撃事例研究を含むAIシステムの敵対的脅威の全体像

FAQ

AIセキュリティに関するよくある質問

AIセキュリティとは何ですか？

AIセキュリティは、意図的な攻撃からmachine learningモデルとAIパイプラインを保護する分野です。対象は、誤った出力を引き起こす敵対的入力、汚染された訓練データ、言語モデルへのプロンプトインジェクション攻撃、モデル窃取です。AIシステムの仕組みに特有の攻撃対象をカバーするために、従来のサイバーセキュリティを拡張します。

AIセキュリティとAIセーフティはどう違いますか？

AIセーフティは意図しない失敗、つまり敵対的な介入なしにAIシステムが有害な出力を生成したり意図しない方法で動作したりするケースに対処します。AIセキュリティは、自分たちの利益のためにAIを悪用しようとする敵対者による意図的な攻撃に対処します。どちらも重要であり、異なる防御を必要としますが、一部重複しています。

プロンプトインジェクションとは何ですか？なぜ深刻なリスクなのですか？

プロンプトインジェクションは、AIが処理するコンテンツに悪意のある指示を埋め込み、AIが意図したプログラムの代わりにその指示に従うようにします。AIシステムがデータベースへのクエリ、メッセージの送信、コードの実行など、世界でのアクションをますます担うようになっているため、深刻なリスクです。成功したインジェクション命令により、AIエージェントにオペレーターが認可していない行動を取らせることができます。

組織がAIセキュリティを改善するために最初に行うべきことは何ですか？

本番環境の各AIシステムの脅威モデリングから始めてください。誰がそれに入力を送信できるか、どのようなアクションを取れるか、攻撃者がそれを操作することで何を得るかを特定します。この分析により、実際にシステムに関連する攻撃が明らかになり、最も重要なコントロールへの投資が集中します。

Victor Hoang

Co-Founder & CMO, Rework

AI Terms

AIセキュリティとは？AIシステムを攻撃から守る