LFM2-VL：効率的なビジョン・ランゲージモデル

本日、当社初のビジョン・ランゲージ基盤モデル「LFM2-VL」を発表します。
これらのマルチモーダルモデルは、低レイテンシーかつデバイス特性を考慮したデプロイ向けに設計されています。LFM2-VLは、オープンウェイトのLiquid Foundation Models（LFM）ファミリーをビジョン・ランゲージ分野へ拡張し、可変解像度のテキストおよび画像入力をサポートします。

LFM2-VLは、スマートフォン、ノートPC、単一GPU環境からウェアラブルやその他の組み込みデバイスまで、幅広いデバイス環境に対応する実用的で柔軟なソリューションを提供します。本モデルは、既存のビジョン・ランゲージモデルと比べ、GPU上で最大2倍の推論速度を実現しつつ、高い性能を維持します。

LFM2-VLは、リソース制約の厳しい環境向けに設計された超効率的な LFM2-VL-450M と、より高性能ながら軽量な LFM2-VL-1.6B の2種類を用意しています。オープンソースエコシステムや、カスタマイズやマルチプラットフォームでのエッジデプロイに対応する LEAP に統合された効率的なソリューションです。

LFM2-VLの主な特徴

LFM2をベースにした新しい効率的モデル：LFM2-VL-450M と LFM2-VL-1.6B（リソース制約のある環境向けに設計）
GPU上での推論速度が2倍：既存のVLMと比較して、高い精度を維持しながら最大2倍の高速化
柔軟なアーキテクチャ：推論時にユーザーが速度と精度のバランスを調整可能
ネイティブ解像度処理：最大512×512に対応し、大きな画像はパッチベースでインテリジェントに処理（アップスケーリングや歪みを回避）

アーキテクチャ

LFM2-VLは、言語モデルのバックボーン、ビジョンエンコーダ、マルチモーダルプロジェクタという3つの主要コンポーネントで構成されています。

言語モデルタワーでは、LFM2-VLはLFM2バックボーンを基盤としており、LFM2-VL-1.6Bでは LFM2-1.2B、LFM2-VL-450Mでは LFM2-350M を継承しています。

ビジョンタワーでは、入力画像をトークン列に変換するために SigLIP2 NaFlexエンコーダを採用。2種類のバリアントを実装しています：

Shape-optimized（400M）：より精細なビジョン能力を持ち、LFM2-VL-1.6Bに使用
Base（86M）：高速な画像処理に特化し、LFM2-VL-450Mに使用

エンコーダは、最大512×512ピクセルまでのネイティブ解像度で画像を処理し、小さい画像はアップスケーリングせず効率的に処理します。また、非標準のアスペクト比でも歪みなく対応可能です。

より大きな画像は、512×512ピクセルの正方形パッチに重ならないよう分割し、詳細を保持します。LFM2-VL-1.6Bでは、グローバルな文脈理解と整合性を向上させるため、オリジナル画像を縮小して全体を把握できるサムネイルも入力します。各パッチの位置やサムネイルの開始位置は、特別なトークンでマークされます。

マルチモーダルプロジェクタでは、2層MLPコネクタとPixel Unshuffleを実装し、画像トークン数を削減。これにより、品質を大きく損なうことなくスループットを向上させました。例えば、256×384画像では96トークン、384×680画像では240トークン、1000×3000画像では1,020トークンが生成されます。

この柔軟なアーキテクチャにより、再学習なしで推論時の速度と精度のバランスを調整可能です。入力解像度に相当する画像トークンの最大数や画像パッチ数をユーザーが調整でき、特定のユースケースやレイテンシー要件に合わせて性能を最適化できます。

トレーニング

LFM2-VLは、LFM2ベースモデルを基盤としています。ビジョンと言語の能力は、中間段階のジョイントトレーニングで融合され、この過程でテキストと画像データの比率を95%から30%へ段階的に調整します。

その後、画像理解に重点を置いたジョイントの教師ありファインチューニングを実施します。ビジョントレーニングデータには、大規模なオープンソースデータセットと社内の合成ビジョンデータセットを組み合わせ、多様なタスクに対するカバレッジのバランスを取っています。

最終的に、LFM2-VLは約1,000億のマルチモーダルトークンで学習されています。

評価

ベンチマーク

LFM2-VLは、複数の公開ビジョン・ランゲージベンチマークで評価しました。その結果、本モデルは高解像度画像の理解やマルチモーダル指示の追従において優れた性能を示し、その他のタスクにおいても強力な性能を維持しています。

モデル	InternVL3-2B	InternVL3-1B	SmolVLM2-2.2B	LFM2-VL-1.6B	SmolVLM2-500M	LFM2-VL-450M
RealWorldQA	65.10	57.00	57.50	65.23	49.90	52.29
MM-IFEval	38.49*	31.14*	19.42*	37.66	11.27*	26.18
InfoVQA (Val)	66.10*	54.94*	37.75*	58.68	24.64*	46.51
OCRBench	831	798	725	742	609	655
BLINK	53.10	43.00	42.30	44.40	40.70	41.98
Vision MMStar	61.10	52.30	46.00	49.53	38.20	40.87
MMMU (Val)	48.70	43.20	41.60	38.44	34.10	33.11
MathVista	57.60	46.90	51.50	51.10	37.50	44.70
SEEDBench_IMG	75.00	71.20	71.30	71.97	62.2	63.5
MMVet	67.00	58.70	34.90	48.07	29.90	33.76
MME	2186.40	1912.40	1792.50	1753.04	1448.30	1239.06
Text MMLU	64.80	49.80	-	50.99	-	40.16

表1. ビジョン・ランゲージ評価におけるベンチマーク結果

*MM-IFEvalおよびInfoVQA（Val）のスコアは、InternVL3およびSmolVLM2モデルに対しVLMEvalKitを使用して取得しました。

推論速度

私たちのモデルは推論速度において優れており、GPU上で競合モデルの中で最速の性能を達成しています。評価では、1024×1024の画像1枚と、
「この画像を詳しく説明してください」のような短いプロンプトを組み合わせ、各モデルのデフォルト設定で100トークンの出力を生成するという典型的なワークロードを使用しました。

この条件下で、LFM2-VLは最速の競合モデルと比べて最大2倍の速度を実現しつつ、精度も競合水準を維持しています。

LFM2-VLで構築する

LFM2-VLモデルは、本日より Hugging Face 上で利用可能で、Colab にファインチューニング用のサンプルコードを提供しています。これらのモデルは、Apache 2.0 に基づくオープンライセンスで公開されています。ライセンスにより、学術および研究目的での自由な利用が可能です。また、年間売上が1,000万ドル未満の小規模企業であれば商用利用も許可されます。この金額を超える場合は、商用ライセンス取得のため sales@liquid.ai までご連絡ください。ライセンスの詳細はこちらからご確認いただけます。

LFM2-VLモデルはオンデバイスでの効率性を重視して設計されているため、まずはお使いのデバイス上でプライベートかつローカルにテストすることを推奨します。現在、Hugging Face Transformers および TRL に対応しています。また、他の一般的な推論およびファインチューニングフレームワークへの統合に向け、コミュニティと積極的に協力しています。

エッジデプロイメント向けのカスタムソリューションにご興味がある場合は、営業チーム（sales@liquid.ai）までお問い合わせください。