日本語

AIレイテンシとは?レスポンスタイムが本番でのAI価値を左右する理由

展開層全体の時間到最初のトークンと総レスポンスタイムを示すAIレイテンシ図

Turn this article into takeaways for your work.

Each assistant summarizes the article only for you and suggests best practices for your work.

営業担当者がAIアシスタントに電話前のアカウントサマリーを依頼します。2秒で答えが返ってくれば毎回使います。18秒かかれば1週間で使うのをやめます。フィーチャーは依然として存在します。AIは依然として機能します。しかしレイテンシが、誰も気づかないうちに採用を消し去ったのです。

AIを展開するビジネスリーダーにとって、レイテンシは技術的な些細事ではありません。行動を変えるAI投資と、静かに見捨てられる投資の違いです。何がレイテンシを引き起こし、何をコントロールできるかを理解することは、AI展開を後援するすべての人にとって実践的な要件です。

AIシステムにおけるレイテンシの意味

レイテンシはAIシステムへのリクエスト送信から完全なレスポンス受信までの経過時間です。日常的な言葉で言えば:どれくらいかかるか?

しかしこの単一の数値は重要なバリエーションを隠しています。AIエンジニアは通常2つの別々のコンポーネントを測定します。

最初のトークンまでの時間(TTFT)。 モデルが出力の生成を開始するまでの時間。ストリーミングレスポンス(テキストが単語ごとに表示される)では、ユーザーが「AIがどれだけ速く応答し始めるか」として認識するものです。高いTTFTはシステムがフリーズしているように感じさせます。

1出力トークンあたりの時間(TPOT)。 最初のトークンの後、モデルが各トークンを生成する速さ。長いレスポンスでは、これが総経過時間を決定します。速いTTFTだが遅いTPOTは、AIが素早く始まるが長い回答をゆっくり進むことを意味します。

総レスポンスタイムは両者の合計です。TTFTが50ms、トークンあたり20msの500トークンレスポンスでは、総時間は10秒です。50トークンレスポンスでは1秒です。

実際に関連するメトリクスはユースケースによって異なります。会話型アシスタントではTTFTが最も重要です。夜間に実行するバッチドキュメントプロセッサでは、個々のクエリのスピードよりも総スループットが重要です。

レイテンシを引き起こすもの

AIシステムのレイテンシにはいくつかの異なる源泉があります。展開においてどれが支配的かを知ることで、どこに集中すべきかが決まります。

モデルサイズ。 より大きいモデル(より多くのパラメータ)は実行が遅くなります。GPT-4クラスのモデルは数千億のパラメータを持ちます。小さな特化型モデルは70億かもしれません。小さいモデルは速く、時に10〜20倍速く答えますが、能力が低くなります。これがinference最適化の核心的なトレードオフです。

ハードウェア。 AI inferenceはGPUまたは専用AIチップ(TPU・AWS Inferentiaなど)で動作します。同じモデルがハイエンドH100 GPUでは下位ティアのインスタンスより大幅に速く動作します。クラウドプロバイダーはGPUの可用性を段階化しており、小規模な展開は古いハードウェアを受け取ることが多いです。

量子化と精度。 メモリと計算要件を削減するために、より低い数値精度(例えばFP16ではなくINT8)でモデルを実行できます。よく実装された量子化は多くのタスクにおいてモデストな品質への影響で2〜4倍のレイテンシを削減できます。

ネットワーク距離。 アプリケーションがヨーロッパにあり、AIプロバイダーのinferenceエンドポイントが米国東部リージョンにある場合、モデルが「考え」始める前に80〜150msのネットワーク往復レイテンシが加わります。リアルタイムアプリケーションでは、リージョン選択が重要です。

コンテキスト長。 Transformerモデルはアテンション計算においてコンテキストウィンドウ長に対して2乗比例でスケールします。10万トークンのコンテキストを送ることは、1,000トークンのコンテキストよりも劇的に遅くなります。長いコンテキストのアプリケーション(ドキュメント分析・大規模コードベースのコードレビュー)は重大なレイテンシコストを払います。

バッチ処理とキューの深さ。 クラウドinferenceエンドポイントは多くのユーザーを同時に処理します。需要が急増すると、リクエストがキューで待機します。このキュー待ちはユーザーの視点からは見えないレイテンシですが、負荷下でレスポンスタイムに数秒を加える可能性があります。

検索ステップ。 検索拡張生成システムはモデルinferenceの前に検索ステップを追加します。最適化されたベクター検索は50〜200msかかります。最適化が不十分なものは2〜5秒かかり、総レイテンシを支配することがあります。

なぜ他のほとんどのメトリクスより重要なのか

ユーザーエクスペリエンスとAI採用に関する研究は一貫したパターンを示しています。レスポンスタイムの閾値がフィーチャーが習慣になるか摩擦ポイントになるかを決定します。

インタラクティブなユースケース(アシスタント・コパイロット・検索)では、2秒未満のレスポンスは即時に感じられます。2〜5秒は気づかれますが許容できます。5秒を超えると、ユーザーは離脱し、待つのをやめ、別の方法を探します。ルーティンなクエリで10秒を超えると、採用率は急落し、後でシステムが改善されても回復しないことが多いです。

これはエンタープライズAIに複合的な問題を生み出します。ローンチ時に遅いシステムは、ユーザーに遅さを期待させ、対処行動を開発させます(フィーチャーを無視する、その周りで作業する)。レイテンシが改善されても、行動の変化はすでに起きています。

ビジネス上の意味:レイテンシの閾値は展開前に受け入れ基準として定義されるべきで、ローンチ後に後付けで測定されるべきではありません。

エッジAIという選択肢

クラウドinferenceのレイテンシへの一つのアーキテクチャ的な対応は、モデルをユーザーに近づけることです。エッジAIはローカルデバイスやオンプレミスのハードウェアで小さく最適化されたモデルを動作させ、ネットワークレイテンシを完全に排除します。

データプライバシーが重要なユースケース(医療・法律・金融)では、エッジ展開はデータが組織の管理を離れることも排除します。トレードオフはエッジモデルが通常クラウドホストのフロンティアモデルより小さく能力が低いことです。

意思決定フレームワークはシンプルです。ユースケースがほぼリアルタイムの応答を必要とする場合(音声インターフェース・リアルタイムドキュメントスキャン・接続が不安定なフィールド営業ツール)、エッジ展開を評価する価値があります。ユースケースが数秒を許容できる場合(非同期分析・夜間バッチ・バックグラウンドエンリッチメント)、フロンティアモデルによるクラウドinferenceが通常正しい選択です。

ビジネスリーダーが影響できること

技術チームがレイテンシ最適化の意思決定の大部分を管理しますが、ビジネスリーダーは運用上のレイテンシ範囲を決定するいくつかの要素をコントロールします。

ユースケースの設計。 非同期ワークフロー(会議中ではなく会議前にサマリーを準備)は15秒のレイテンシを問題から非問題に変えます。優れたプロダクト設計は計算が起きるタイミングをシフトすることで、しばしばレイテンシを制約として排除します。

モデル選択のトレードオフ。 フロンティアモデルとより小さな特化型モデルを選ぶことは、しばしばレイテンシの次元を持つビジネス上の意思決定です。特定のタスクに合わせてファインチューニングされた小さなモデルは、品質要件を満たしながらより速くより安価かもしれません。これには小さな代替品を展開する前に品質を検証するためのモデルモニタリングが必要です。

SLA定義。 明示的なレイテンシSLA(例えば「95パーセンタイルのレスポンスが3秒未満」)を定義することで、エンジニアリングチームに具体的な目標を与え、ユーザーが気づく前に劣化を検出するための測定インフラを作ります。

インフラ予算。 プレミアムGPUティアは費用がかかります。コスト削減されたinferenceエンドポイントは遅くなります。このトレードオフは通常、見えないデフォルトとして残すのではなく、明示的に議論する価値があります。

重要なポイント

  • AIレイテンシには2つのコンポーネントがあります。最初のトークンまでの時間(ユーザーが感じる応答性)と総レスポンスタイム(長い出力に関連)。
  • 主な要因はモデルサイズ・ハードウェアティア・量子化・ネットワーク距離・コンテキスト長・負荷下でのキューの深さです。
  • ユーザー採用はインタラクティブなユースケースで5秒を超えると通常崩れ、その後レイテンシが改善されても回復しないことが多いです。
  • アーキテクチャの選択(非同期ワークフロー・エッジ展開・モデル選択)は単に最適化するのではなく、レイテンシの制約を排除または再構成できます。
  • レイテンシSLAは展開前に定義されるべきで、ローンチ後に測定されるべきではありません。