LFM2.5 のご紹介：オンデバイス AI の次世代

本日、エッジ AI 展開向けとしてこれまでで最も高性能なリリースとなる LFM2.5-1.2B モデルファミリーを発表できることを大変嬉しく思います。本モデルは、LFM2 のデバイス最適化アーキテクチャを基盤としており、エッジ上で信頼性の高いエージェントを構築するための大きな飛躍を実現しています。事前学習は 10T トークンから 28T トークンへと拡張され、さらに強化学習を用いたポストトレーニングパイプラインを大幅にスケールさせることで、1B モデルが達成できる性能の限界を押し広げました。本リリースは、Base、Instruct、日本語、Vision-Language、Audio-Language モデルを含む包括的なものです。

LFM2.5 は、オンデバイスのエージェント型 AI を構成する中核として、指示追従能力に最適化されています。LFM2.5 により、あらゆるデバイス上でプライベートかつ高速で、常時利用可能なインテリジェンスへのアクセスが可能になります。新しい Text モデルは、高性能なオンデバイスワークフローにおいて妥協のない品質を提供します。Audio モデルは前世代比で 8 倍高速であり、車載機器、モバイル、IoT デバイスといった制約のあるハードウェア上でネイティブに動作します。さらに、VLM は複数画像・多言語に対応した視覚理解および指示追従能力を強化し、エッジ環境におけるマルチモーダルなユースケースを支援します。

すべてのモデルはオープンウェイトで、Hugging Face および LEAP にて本日より利用可能です。また、ローンチパートナーである AMD および Nexa AI が、NPU 上で最適化されたパフォーマンスを提供していることをお知らせします。

言語モデル

LFM2.5 シリーズの基盤を成すのは、汎用言語モデルです。ビルダーの皆様がユースケースに応じてより適切なソリューションを構築できるよう、Base と Instruct の両バリアントをリリースします。

LFM2.5-1.2B-Base は事前学習済みチェックポイントであり、すべての LFM2.5-1.2B バリアントの作成に使用されます。言語別またはドメイン特化型アシスタントの構築、プロプライエタリデータを用いた学習、新しいポストトレーニング手法の実験など、集中的なファインチューニングを必要とするタスクに推奨されます。

LFM2.5-1.2B-Instruct は汎用の指示調整済みバリアントであり、ほとんどのユースケースに適しています。教師ありファインチューニング、選好アライメント、大規模なマルチステージ強化学習によって学習されており、初期状態から優れた指示追従性能とツール利用能力を発揮します。

テキストモデルのベンチマーク

Model	GPQA	MMLU-Pro	IFEval	IFBench	Multi-IF	AIME25	BFCLv3
LFM2.5-1.2B-Instruct	38.89	44.35	86.23	47.33	60.98	14.00	49.12
Llama 3.2 1B Instruct	16.57	20.80	52.37	15.93	30.16	0.33	21.44
Gemma 3 1B IT	24.24	14.04	63.25	20.47	44.31	1	16.64
Granite-4.0-h-1b	24.34	27.64	80.08	24.93	47.56	1	50.69
Granite-4.0-1b	24.24	33.53	79.61	21	43.65	3.33	52.43
Qwen3-1.7B (instruct mode)	34.85	42.91	73.68	21.33	56.48	9.33	46.30

LFM2.5 は、同規模のモデルと比較して、低メモリプロファイルを維持しながら CPU 上で非常に高速な推論性能を実現します。

LFM2.5-1.2B-Instruct は、1B スケールにおいてトップクラスの性能と効率的な推論を両立しています。知識、指示追従、数学、ツール利用に関する各種ベンチマークで最高水準の結果を達成しつつ、ハイブリッドアーキテクチャにより極めて高速な推論速度を維持しています。これにより、ローカルコパイロット、車載アシスタント、ローカル生産性ワークフローといったオンデバイスのユースケースに自然に適合します。

日本語言語モデル

LFM2.5-1.2B-JP は、日本語向けに特化して最適化されたチャットモデルです。LFM2 でもすでに 8 言語の一つとして日本語をサポートしていましたが、LFM2.5-JP では、このスケールにおける日本語の知識および指示追従性能を最先端レベルまで引き上げています。本モデルは、文化的・言語的なニュアンスが重要となる日本語アプリケーションを構築する開発者に最適です。

日本語ベンチマーク結果

Model	JMMLU	M-IFEval (ja)	GSM8K (ja)
LFM2.5-1.2B-JP	50.7	58.1	56.0
LFM2.5-1.2B-Instruct	47.7	41.8	46.8
Qwen3-1.7B (instruct mode)	47.7	40.3	46.0
Llama 3.2 1B Instruct	34.0	24.1	25.2
TinySwallow-1.5B-Instruct	48.0	36.6	47.2
Gemma-2-Llama-Swallow-2b-it-v0.1	48.1	33.4	34.4
Gemma-3-1b-it	34.5	26.3	33.6
Granite-4.0-h-1b	42.2	39.3	42.8
Sarashina2.2-1b-instruct-v0.1	40.2	21.9	44.4

ビジョン・ランゲージモデル

LFM2.5-VL-1.6B は、更新された LFM2.5-base バックボーンを基盤として構築され、実環境での性能向上を目的にチューニングされた、刷新版のビジョン・ランゲージモデルです。本リリースでは、複数画像の理解能力が明確に向上しており、さらに多言語の視覚理解性能も改善されています。アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語によるプロンプトを、より高い精度で処理することが可能です。

LFM2.5-VL-1.6B は、視覚およびテキストの両方の指示ベンチマークにおいて、より優れた指示追従性能を示しており、エッジ環境におけるマルチモーダルアプリケーションに最適な選択肢となります。

視覚およびテキストのベンチマーク結果

Model	MMStar	MM-IFEval	BLINK	InfoVQA (val)	OCRBench v2	RealWorldQA	MMMU (val)	MMMB (avg)	Multilingual MMBench (avg)	GPQA	MMLU Pro	IFBench	IFEval
LFM2.5-VL-1.6B	50.67	52.29	48.82	62.71	41.44	64.84	40.56	76.96	65.90	25.45	29.61	30.33	71.89
LFM2-VL-1.6B	49.87	46.35	44.50	58.35	35.11	65.75	39.67	72.13	60.57	21.72	24.92	18.67	64.26
InternVL3.5-1B	50.27	36.17	44.19	60.99	33.53	57.12	41.89	68.93	58.32	28.48	32.55	18.67	68.29
FastVLM-1.5B	53.13	24.99	43.29	23.92	26.61	61.56	38.78	64.84	50.89	-	-	-	-

すべてのビジョンベンチマークスコアは、VLMEvalKit を用いて取得されています。多言語スコアは、英語からアラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語へ GPT-4.1-mini によって翻訳されたベンチマークの平均値に基づいています。

オーディオ・ランゲージモデル

LFM2.5-Audio-1.5B は、音声とテキストの両方を入力・出力モダリティとして受け付ける、ネイティブなオーディオ・ランゲージモデルです。音声認識、LLM 処理、TTS を個別のステージとして連結するパイプライン型アプローチとは異なり、LFM2.5-Audio は音声をネイティブに処理することで、各コンポーネント間の情報的な障壁を排除し、エンドツーエンドのレイテンシを大幅に削減します。

主な改善点として、レイテンシを大幅に低減したカスタムの LFM ベース音声デトークナイザー、CPU 推論向けの llama.cpp 互換 GGUF、そして ASR および TTS 性能全体にわたるベース言語品質の向上が挙げられます。

LFM2.5-Audio の中核には、新しいコンパクトな音声デトークナイザーがあります。これは、言語モデルのバックボーンから出力される離散トークンを高忠実度の音声波形へと効率的に変換する、LFM ベースのアーキテクチャです。LFM2.5 のデトークナイザーは、モバイル CPU 上で同一精度の場合、LFM2 の Mimi デトークナイザーと比較して 8 倍高速です。最高品質を実現するために、INT4 精度での量子化対応学習（QAT）も行われており、低精度のまま直接デプロイできるよう設計されています。その結果、FP32 における従来の LFM2 Mimi デトークナイザーと比べても、品質劣化はごくわずかに抑えられています。

Model	STOI	UTMOS	DNSMOS p.838	DNSMOS p.808
LFM2.5, INT4	0.89	3.53	3.09	3.66
LFM2 (Mimi), FP32	0.89	3.65	3.12	3.68
LFM2 (Mimi), INT4	0.87	3.11	2.98	3.62

※ 数値が高いほど良好

以下は、男性音声および女性音声の両方で、次のテキストを発話させた際の、各種オーディオモデルの性能を示したものです。
「The birch canoe slid on the smooth planks. Glue the sheet to the dark blue background. It's easy to tell the depth of a well.」

Model	Generation (Male)	Generation (Female)
LFM2.5-Audio-1.5B	UK male	UK female
LFM2-Audio-1.5B	LFM2 male	LFM2 female
Qwen3-30B-A3A-Omni	Qwen3 Omni male	Qwen3 Omni female
Elevenlabs v3	Elevenlabs male Brian.mp3	Elevenlabs female Alice

LFM2.5 を実行する

高性能なモデルは、簡単にデプロイできるべきです。そのため、LFM2.5 は主要な推論フレームワークに対してデイゼロ対応で提供されます。

LEAP — クラウド API を呼び出すのと同じ手軽さで、iOS および Android にモデルをデプロイできる Liquid のエッジ AI プラットフォーム。
llama.cpp — CPU 推論のための定番ソリューション。すべてのモデルに対して GGUF チェックポイントが提供されており、最適化された量子化によって、あらゆるハードウェア上で効率的なデプロイが可能です。
MLX — Apple Silicon ユーザーは、MLX に最適化されたチェックポイントにより、ユニファイドメモリアーキテクチャを最大限に活用できます。
vLLM — GPU による高速化されたサービング向け。vLLM のサポートにより、本番環境での高スループット推論が可能になります。
ONNX — 幅広いハードウェアをサポートするクロスプラットフォーム推論。ONNX チェックポイントにより、クラウドからエッジデバイスまで、多様なアクセラレータおよびランタイムへのデプロイが可能です。

すべてのフレームワークは、Apple、AMD、Qualcomm、Nvidia のハードウェアにおいて、CPU および GPU の両方によるアクセラレーションをサポートしています。

ローンチパートナーシップ

また、AMD および Nexa AI と提携し、LFM2.5 ファミリーを NPU 向けに提供します。これらの最適化されたモデルはパートナーを通じて利用可能であり、オンデバイス推論を非常に効率的に実行できます。

これらの機能により、車載機器、モバイルデバイス、ノートパソコン、IoT デバイス、組み込みシステムなど、さまざまなデバイスにわたる新しいデプロイシナリオが実現されます。

推論速度ベンチマーク

Device	Inference	Framework	Model	Prefill (tok/s)	Decode (tok/s)	Memory
AMD Ryzen AI 9 HX 370	CPU	llama.cpp (Q4_0)	LFM2.5-1.2B-instruct	2975	116	856MB
Qualcomm Snapdragon® X Elite	NPU	NexaML	LFM2.5-1.2B-instruct	2591	63	0.9GB
Qualcomm Snapdragon® Gen4 (ROG Phone9 Pro)	NPU	NexaML	LFM2.5-1.2B-instruct	4391	82	0.9GB
Qualcomm Dragonwing IQ9 (IQ-9075) (IoT)	NPU	NexaML	LFM2.5-1.2B-instruct	2143	53	0.9 GB
Qualcomm Snapdragon® Gen4 (Samsung Galaxy S25 Ultra)	CPU	llama.cpp (Q4_0)	LFM2.5-1.2B-instruct	335	70	719MB
Qualcomm Snapdragon® Gen4 (Samsung Galaxy S25 Ultra)	CPU	llama.cpp (Q4_0)	Qwen3-1.7B	181	40	1306MB
AMD Ryzen AI 9 HX 370	CPU	llama.cpp (Q4_0)	Qwen3-1.7B	2008	62	1465MB

速度の数値は、1K プリフィルおよび 100 デコードトークンを基準としています。

はじめに

LFM2.5 ファミリーは現在、Hugging Face、LEAP、および当社のプレイグラウンドで利用可能です。

LFM2.5-1.2B-Base: Hugging Face
LFM2.5-1.2B-Instruct: Hugging Face, LEAP, Playground
LFM2.5-1.2B-JP: Hugging Face, LEAP
LFM2.5-VL-1.6B: Hugging Face, LEAP, Playground, Demo
LFM2.5-Audio-1.5B: Hugging Face, LEAP, Playground

LFM2.5-1.2B の各バリアントは LFM2.5 モデルファミリーの一部であり、今後、モデルサイズや推論能力の拡張を通じて成長していく予定です。

LFM2.5 により、私たちは「どこでも動作する AI」というビジョンを実現します。これらのモデルは以下の特長を備えています。

オープンウェイト — 制限なくダウンロード、ファインチューニング、デプロイが可能
初日から高速 — Apple、AMD、Qualcomm、Nvidia のハードウェアにおいて、llama.cpp、NexaSDK、MLX、vLLM をネイティブにサポート
完全なモデルファミリー — カスタマイズ向けのベースモデルから、音声・視覚に特化したモデルまで、単一のアーキテクチャで多様なユースケースをカバー

エッジ AI の未来は、すでにここにあります。皆さんが何を構築するのか、楽しみにしています。

エンタープライズ向けの導入やカスタムソリューションについては、営業チームへお問い合わせください。実装の詳細については、技術レポートをご覧ください。