状態/キャッシュサイズが同じであっても、モデルによってメモリをどれだけうまく利用するかが大きく異なる場合があり、リコール、圧縮、およびトレーニングのしやすさに影響します。
実効ステートサイズ (ESS): メモリ使用率のプロキシメトリックを紹介します。
多くのディープラーニングシーケンスモデル (注意、SSM、ゲート対流) は y = T (u) u (T) u (ここで T (u) は入力依存行列です)。
従来の信号処理の結果を拡張することにより、等価な再帰では、サイズが T (u) の部分行列のランク以上である状態が実現されなければならないことがわかります。このランクを ESS と定義し、モデルのメモリ使用量の尺度として解釈します。
ESSを分析したところ、いくつかの重要な洞察が明らかになりました。
- 状態圧縮:ESS(メモリ使用率が高い)が高いシーケンスモデルは、州の小さい学生に分解するのが困難です。
- 初期化と機能化:ESSは初期化と機能化のスキームに通知して、リコールのパフォーマンスを向上させることができます。
- 状態変調:各タイムステップでESSを追跡できるため、モデルがコンテキスト (EOSトークンなど) に応じてメモリ使用量をどのように調整するかがわかります。ESS をより効果的に調節する LLM の方が、リコールを多用するタスクではパフォーマンスが向上する傾向があることがわかりました。

この作品はICML 2025で受理されました。
すべての詳細については、論文を参照してください。」実効状態サイズによるメモリ使用量の定量化」。