エッジデバイス用の畳み込みマルチハイブリッド

人工知能は急速にユビキタスになりつつあり、大規模なクラウド導入からスマートフォンやラップトップなどのリソースの少ないエッジデバイスまで、さまざまなアプリケーションを支えています。SmollM2（Allalら、2025年）、Phiモデル（Abdinら、2024年）、Llama 3.2 1B（Grattafioriら、2024年）など、エッジデプロイメント向けに最適化された現在のほとんどの小型モデルは、並列化可能な計算と効率性により、主にアテンション演算子を特徴とするトランスフォーマーベースのアーキテクチャに依存しています。カーネル（ヴァスワニ他、2017年）。アーキテクチャの最適化は、GPU であっても非常に困難な場合があります。ハイブリッドアーキテクチャは品質の向上をもたらすことが示されていますが、特にプロンプトが短い場合など、エッジ展開が重要な環境では、高度に最適化されたトランスフォーマーよりも導入が遅くなることがよくあります。これは、ターゲットハードウェアに合わせたパフォーマンス指標を用いて、モデルアーキテクチャと推論ランタイムを共同で最適化することの重要性を浮き彫りにしています。

本日、Hyena Edgeと呼ばれるLiquidアーキテクチャを紹介します。これは、Samsung S24 Ultraスマートフォンでベンチマークされた、エッジハードウェアの計算効率とモデル品質において、Transformerベースの強力なベースラインに匹敵するだけでなく、それを上回るコンボリューションベースのマルチハイブリッドモデルです。ハイエナエッジの設計には、最近提案したハイエナエッジを使用します。エンドツーエンドの自動モデル設計フレームワーク。

今後数か月以内に、ハイエナエッジを含む一連のLiquidファンデーションモデルをオープンソース化する予定です。引き続き AI エッジで可能なことの限界に挑戦していきますので、ご期待ください。

STAR によるアーキテクチャ最適化の自動化

アーキテクチャを体系的に調査して最適化するために、ICLR '25で発表された最近導入された自動アーキテクチャ最適化フレームワークであるSTAR（Thomas et al。、2024）を使用しました。STAR は進化的原理と線形システム理論を組み合わせて建築空間を効率的にナビゲートし、効率と品質性能の最適なトレードオフを実現しています。

STARは、16の候補アーキテクチャを集めて初期化し、24世代にわたって進化させてきました。検索空間には、ハイエナにインスパイアされた畳み込み演算子の複数のバリエーションが含まれていました（Poli et al.、2023; Ku et al.、2025）。ハイエナ（完全）：ハイエナの内部畳み込みの隣にあるゲーティングメカニズムの畳み込みを含みます。ハイエナX (チャンドラセガラン他、2025): 内部畳み込みを除外します。Hyena-Y (チャンドラセガランら、2025 年): 特徴グループ (ゲート) に含まれるコンボリューションを除外します。これら3種類のハイエナにまたがることに加えて、学習した短く明示的な (SE) 畳み込みフィルター (3-128) の長さも変え (3-128)、合計18個の畳み込み演算子の集合を得ました。検索スペースにはさらに、GQA（KVヘッドの数が異なる、Shazeer、2019年）とSwiGlu（内側の幅が異なる、Shazeer、2020年）のバリエーションも含まれていました。

ビデオ1. Hyenaオペレータの進化の概要。上：散布図は集団の構造を示しています。色付きの線は、初期集団と比較したターゲット指標の平均変化を示しています。下：ヒストグラムは、現在の集団における各オペレータの総数を示しています。色付きの線は、集団における各オペレータカテゴリの相対的な割合を示しています。

STARは、S24 Ultraでの個々のオペレーターのレイテンシーとメモリ使用量の初期プロファイリングと、トレーニング中の複雑さを考慮して、レイテンシー、メモリ使用量、モデル品質の効率性品質のフロンティアに向けてアーキテクチャの数を繰り返し進化させています。¹。‍

ザ・ライズ・オブ・ハイエナ-Y

興味深いことに、アーキテクチャが効率と品質の最前線に近づくにつれて、STARは次第にHyena-Y畳み込みを優先するようになり、レイテンシー、メモリ、品質の指標全体で優れたバランスが取れていることが実証されました。この洞察を活用して、最終的なハイエナエッジアーキテクチャは、最先端のGQA-Transformer++ベースラインのGQA演算子の3分の2を、Hyena-Yファミリーの最適化されたゲート畳み込みに戦略的に置き換えます。

ハイエナエッジのベンチマーキング

Hyena Edgeのパフォーマンスを、パラメーターが一致したGQA-Transformer++ベースラインと照らし合わせて評価し、レイテンシー、メモリ使用量、言語モデリングのベンチマークに注目して、同じ1,000億トークンのセットで両方のモデルをトレーニングしました。

ハイエナエッジは、全体を通してトランスフォーマーベースのベースラインを上回っています。

図 1. Samsung S24 Ultra スマートフォンで収集されたレイテンシとメモリのプロファイル。

効率: Hyena Edgeは、Samsung S24 Ultraで一貫してプリフィルとデコードのレイテンシが速いことを示しました。プレフィルレイテンシーは一般的なシーケンス長で著しく低く、デコードレイテンシーは 256 トークンを超えるシーケンスの方が速かった。重要なのは、Hyena Edgeでは、シーケンス長に応じてレイテンシーのスケーリングが改善され、長いシーケンスではデコードとプリフィルのレイテンシーが最大 30% 速くなり、シーケンス長が短いとプレフィルのレイテンシーがさらに速くなることです。これは代替アーキテクチャにとっては画期的な出来事です。代替アーキテクチャの多くは、シーケンスが大幅に長い場合のみレイテンシーが改善されます。さらに、Hyena Edge は、に比べて、デプロイ時に使用するメモリが少なくて済みます。 ガストランスフォーマー+ すべてのシーケンス長にわたるベースライン。

Wiki

LMB

PiQA

Hella

Wino

ARC-e

ARC-c

Model

Tokens

ppl ↓

acc ↑

acc n ↑

acc ↑

GQA-Transformer++

100B

17.3

10.8

71.1

49.3

51.4

63.2

31.7

53.34

Hyena Edge

100B

16.2

9.4

72.3

52.8

54.8

64.4

31.7

55.2

表 1. 同じ 1000 億トークンで自己回帰言語モデリングをトレーニングした後の言語モデリングのパフォーマンス。

モデル品質: ウィキテキスト、Lambada、Hellaswag、Winogrande、Piqa、Arc-Easy、Arc-Challengeなど、小言語モデルのさまざまな共通言語モデリングベンチマークで、ハイエナエッジは一貫して以下を上回りました ガストランスフォーマー+ ベースライン。‍

妥協のない効率性

ハイエナエッジは、AI エッジの導入において一歩前進を遂げました。コンボリューションベースのマルチハイブリッドアーキテクチャは、エッジデバイスの主要な効率と品質性能の指標において従来のトランスフォーマーモデルよりも優れていることを示すことで、実用的なエッジアプリケーション向けに最適化された代替計算プリミティブの幅広い採用への扉を開きます。

¹アーキテクチャの最適化は、ターゲット深度を最大32演算子で行い、幅を512に縮小して行います。最終的なアーキテクチャ幅は2048です（アテンションヘッドのサイズは64のままです）。STAR進化中に生成される各候補アーキテクチャのレイテンシとメモリ使用量は、STARに含まれるすべての演算子について、最初に収集された個々の演算子プロファイルを合計することで概算します。50億トークンのモデルを学習した後、パープレキシティ指標によって推定される品質を評価します。

参考文献:

アラル、L.B.、ロシュコフ、A.、バクーチ、E.、ブラスケス、G.M.、ペネド、G.、タンストール、L.、... & ウルフ、T.（2025）。SMOLLM2: スモールが大規模になるとき—データ中心の小さな言語モデルのトレーニング。arXiv プレプリント arXiv: 2502.02737。
アブディン、M.、アネハ、J.、ベール、H.、ブベック、S.、エルダン、R.、グナセカー、S.、... & チャン、Y.（2024）。Phi-4 テクニカルレポート. arXiv プレプリントアーカイブ:2412.08905
Grattafiori、A.、Dubey、A.、Jauhri、A.、Pandey、A.、Pandey、A.、Kadian、A.、Al-Dahle、A.、... & Vasic、P.（2024）。ラマ 3: モデルの群れ。arXiv プレプリントアーカイブ:2407.21783.
Vaswani、A.、Shazeer、N.、Parmar、N.、Uzkoreit、J.、Jones、L.、Gomez、A. N.、... & Polosukhin、I.（2017）。必要なのは注意だけです。神経情報処理システムの進歩、30.
カタロプロス、A.、ビアス、A.、パパス、N.、フルーレット、F.（2020年11月）。変圧器はRNNです。線形アテンションを備えた高速自己回帰変圧器です。機械学習に関する国際会議（5156-5165ページ）で。PMLR。
グー、A.、ダオ、T.（2023）。マンバ:選択的状態空間を用いた線形時系列モデリング。arXiv プレプリント arXiv: 2312.00752
ポリ、M.、マッサロリ、S.、グエン、E.、フー、D.Y.、ダオ、T.、バッカス、S.、... & レ、C.（2023年7月）。ハイエナ階層:より大規模な畳み込み言語モデルへ。機械学習に関する国際会議（28043-28078ページ）で。PMLR。
ハサニ、R.、レヒナー、M.、ワン、T.H.、チャヒネ、M.、アミニ、A.、ラス、D.（2022）。液体構造状態空間モデル。arXiv プレプリント arXiv: 2209.12951
トーマス、A・W.、パーニククン、R.、アミニ、A.、マサロリ、S.、ポリ、M.（2024）。スター:テーラードアーキテクチャの合成。arXiv プレプリント arXiv: 2411.17800。
クー、J.、グエン、E.、ロメロ、D.W.、ブリクシ、G.、ヤン、B.、ボロンツォフ、A.、... & ポリ、M.（2025）。大規模な畳み込みマルチハイブリッド言語モデルのためのシステムとアルゴリズム。arXiv プレプリント arXiv: 2503.01868。
チャンドラセガラン、K.、ポリ、M.、フー、D.Y.、キム、D.、ハジッチ、L.M.、リー、M.、グプタ、A.、マサロリ、S.、ミルホセイニ、A.、ニーブルズ、J.C.、エルモン、S.、リー、F.-F.（2025）。グラフトによる拡散変圧器設計の探求。arXivプレプリント。登場する。
シェイザー、N.（2019）。高速トランスフォーマーデコーディング:必要なのは 1 つの書き込みヘッドだけです。arXiv プレプリント arXiv: 1911.02150。
シェイザー、N.（2020）。Gluのバリアントはトランスフォーマーを改善します。arXivプレプリントarxiv: 2002.05202。

プリファレンスを管理

エッジデバイス用の畳み込みマルチハイブリッド

著者

公開済み

STAR によるアーキテクチャ最適化の自動化

ザ・ライズ・オブ・ハイエナ-Y

ハイエナエッジのベンチマーキング

妥協のない効率性

Liquid AI で、ビジネス、ワークフロー、そしてエンジニアの可能性を広げましょう。