LFM2-VL-3B のリリースを発表できることを嬉しく思います。本モデルは、当社のビジョン対応 LFM(450M および 1.6B)ファミリーの中で、最新かつ最も高性能なモデルです。LFM2-2.6B をバックボーンとする 3B パラメータモデルで、LFM2 アーキテクチャが持つ速度面での利点を維持しながら、より高い精度を求めるアプリケーションに対応しています。本日より LEAP および Hugging Face にてご利用いただけます。
フレキシブルなアーキテクチャ
.png)
LFM2-VL-3B は、これまでの VLM で採用してきた設計思想を踏襲しています。当社で最も高性能な高密度モデルである LFM2-2.6B をベースに構築され、SigLIP2 400M NaFlex エンコーダを統合しています。これにより、さまざまなアスペクト比においてネイティブ解像度での画像処理が可能になります。
この柔軟なアーキテクチャにより、開発者は画像あたりのビジョントークン数を調整し、精度と処理速度のバランスを最適化できます。特にエッジ環境において、デプロイメントをより細かく制御できる点が特長です。
アーキテクチャの詳細については、LFM2-VL に関するブログ記事をご覧ください。
幅広い機能と高い性能

FM2-VL-3B は、複数のオープンソース評価において競争力のある結果を示しています。
MM-IFEval では 51.8%、RealWorldQA では 71.4% を記録しました。
単一画像および複数画像の理解、ならびに英語 OCR において優れた性能を発揮し、POPE ベンチマークでは低い幻覚率を達成しています。
また、言語のみの知識ベンチマークにおいても、バックボーンである LFM2-2.6B と同等のスコアを示し、GPQA で 30%、MMLU で 63% を記録しています。
さらに、多言語対応を大幅に強化し、視覚的理解を英語だけでなく、日本語、フランス語、スペイン語、ドイツ語、イタリア語、ポルトガル語、アラビア語、中国語、韓国語にまで拡張しました。
オープンかつすぐに利用可能
LFM2-VL-3B は、当社の LFM オープンライセンスのもと、Hugging Face および LEAP プラットフォームを通じて提供されています。これにより、世界中の開発者や研究者が、最先端かつ高効率な AI にアクセスできるようになります。
LFM2 シリーズは、効率的な AI の限界を押し広げ続けています。適切なアーキテクチャとアプローチによって、小規模なモデルであっても、計算オーバーヘッドを増やすことなくエンタープライズグレードの性能を実現できることを証明しています。
今後も基盤モデルの拡張を進め、このレベルの効率性をより多くのデバイスに届け、新たなアプリケーションの可能性を切り拓いていきます。