LFM2.5-VL-450M：構造化されたビジュアルインテリジェンス、エッジからクラウドへ

本日、LFM2-VL-450Mの改良版であるLFM2.5-VL-450Mをリリースします。本モデルはグラウンディング機能の強化、指示追従性の向上、そして関数呼び出しのサポートを備えています。その結果、画像ストリームをリアルタイムで構造化された実用的な出力へと変換できるコンパクトなモデルとなり、エッジ環境でも動作します。

LFM2.5-VL-450MはHugging Face、LEAP、および当社のPlaygroundで利用可能です。ローカルでの実行およびファインチューニング方法については、ドキュメントをご確認ください。

新機能

数ヶ月前にリリースしたLFM2-VL-450Mと比較して、LFM2.5-VL-450Mでは事前学習のスケールを10Tトークンから28Tトークンへと拡大しました。その後、実運用環境におけるマルチモーダル挙動の改善に焦点を当てた事後学習を行いました。特に、グラウンディング、指示追従性、および視覚言語タスク全体における信頼性向上のために、選好最適化と強化学習を活用しました。

バウンディングボックス予測：0 → 81.28（RefCOCO-M）

物体検出機能を追加し、画像内のオブジェクトを特定し、バウンディングボックスで位置を特定できるようになりました。

多言語画像理解の向上：MMMB 54.29 → 68.09（アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語に対応）

LFM2.5-VL-450Mは8言語のプロンプトに対してより高い精度で対応し、個別のローカライズモデルを必要とせずに、グローバル展開における視覚推論を拡張します。

指示追従性の向上：MM-IFEval 32.93 → 45.00

本モデルは明示的な制約やユーザー指示に対する応答性が向上しており、テキストおよびビジョン入力の両方における操作性が改善されています。

クレジット：元のVLMデモはJoshua Lochnerによるもの

ベンチマーク

LFM2.5-VL-450Mは、コアとなる視覚理解、物体検出、言語推論をカバーするベンチマークで評価されました。LFM2.5-VL-450Mは、ビジョンおよび言語の両方のベンチマークにおいてLFM2-VL-450Mを上回る性能を示し、さらにバウンディングボックス予測（RefCOCO-Mで測定）およびテキストの関数呼び出し（BFCLv4で測定）にも対応しています。

	LFM2.5-VL-450M	LFM2-VL-450M	SmolVLM2-500M
Vision
MMStar	43.00	40.87	38.20
RealWorldQA	58.43	52.03	49.90
MMBench (dev en)	60.91	56.27	52.32
MMMU (val)	32.67	34.44	34.10
POPE	86.93	83.79	82.67
MMVet	41.10	33.85	29.90
BLINK	43.92	42.61	40.70
InfoVQA (val)	43.02	44.56	24.64
OCRBench	684	657	609
MM-IFEval	45.00	33.09	11.27
MMMB	68.09	54.29	46.79
CountBench	73.31	47.64	61.81
RefCOCO-M	81.28	-	-
Language (text only)
GPQA	25.66	23.13	23.84
MMLU Pro	19.32	17.22	13.57
IFEval	61.16	51.75	30.14
Multi-IF	34.63	26.21	6.82
BFCLv4	21.08	-	-

※すべてのビジョンベンチマークスコアはVLMEvalKitを使用して取得されています。多言語MMMBスコアは、英語からアラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、スペイン語へGPT-4.1-miniによって翻訳されたベンチマークの平均に基づいています。

パフォーマンス：エッジ向けに設計

実世界での運用において、VLMはライブのカメラや画像入力を処理し、厳しいレイテンシ制約の中で推論および動作を行う必要があります。LFM2.5-VL-450M（Q4_0）は、組み込みAIモジュール（Jetson Orin）からミニPCのAPU（Ryzen AI Max+ 395）、そしてフラッグシップスマートフォンのSoC（Snapdragon 8 Elite）に至るまで、あらゆる環境でこの制約内に収まるよう動作します。

Resolution	Jetson Orin	Samsung S25 Ultra	AMD 395+ Max
256×256	233 ms	950 ms	637 ms
512×512	242 ms	2.4 s	944 ms

Jetson Orin上では、本モデルは512×512画像に対して250ms未満で推論を行い、単なる検出にとどまらない完全な視覚言語理解を伴いながら、4FPSの動画ストリームの各フレームを処理できる十分な速度を実現しています。コンシューマ向けモバイルチップ上では、より低解像度において1秒未満で処理を維持し、インタラクティブな体験の応答性を保ちます。

実世界でのユースケース：

LFM2.5-VL-450Mは、低レイテンシ、コンパクトで構造化された出力、そして効率的なセマンティック推論が特に重要となる実運用環境に最適です。これらの特性により、計算資源、電力、またはスループットに厳しい制約がある環境や、プライバシーの観点からオフライン動作やオンデバイス処理が重要となる場面での早期導入に適しています。

産業オートメーション — エッジおよび制約環境

乗用車、農業機械、倉庫などの計算資源に制約のある環境では、知覚モデルはしばしばバウンディングボックス出力に限定されます。LFM2.5-VL-450Mはそれをさらに進化させ、単一パスでグラウンディングされたシーン理解を提供することで、システムが単なる物体検出にとどまらず、シーンをセマンティックに推論できるようにします。これにより、作業員の動作、フォークリフトの移動、在庫の流れなどを含む、倉庫通路のような環境においてより豊かな出力が可能になり、Jetson Orinのような既存のエッジハードウェア上でも動作します。

ウェアラブルおよび常時監視 — オンデバイスとプライバシー重視

ウェアラブルやその他の常時監視システムは、電力、レイテンシ、プライバシーに厳しい制約があるため、コンパクトなVLMに適しています。スマートグラス、ウェアラブルアシスタント、ドライブレコーダー、セキュリティや産業用モニタリング機器などは、大規模な知覚スタックや継続的なクラウドストリーミングを前提とできません。このような環境では、効率的なVLMがローカルでコンパクトなセマンティック出力を生成し、生の映像を有用な構造化理解へと変換しながら、計算負荷を抑え、プライバシーを維持します。a

小売およびEコマース — 高スループットなビジュアル処理

小売およびEコマースのプラットフォームは、数百万の製品画像や棚画像を厳しいレイテンシおよびコスト制約のもとで処理する必要がある、極めて高スループットな環境で運用されています。カタログ登録、ビジュアル検索、製品マッチング、棚コンプライアンスといったタスクは、単なる物体検出を超える能力を必要としますが、より高度なビジュアル理解はこの規模ではコスト面で導入が困難な場合があります。LFM2.5-VL-450Mは、これらのワークロードに対して構造化されたビジュアル推論を実用的なものとし、実運用システムに求められる速度と効率でセマンティックな出力を提供します。