本日、リリースします LFM 2.5-1.2B-考え方、完全にデバイス上で実行される推論モデル。携帯電話の 900 MB のメモリに収まり、最速の推論速度と、そのサイズの割には最高の品質を兼ね備えています。2 年前はデータセンターが必要だったものが、今ではポケットの中でオフラインで実行できます。

さらに、私たちは歓迎することでエコシステムを拡大しています クアルコム・テクノロジーズ株式会社オラマファストフロー LM、および カクタス・コンピュート 新しいローンチパートナーとして、既存のパートナーであるAMDとNexa AIに加わりました。これらのパートナーシップにより、車両、スマートフォン、ノートパソコン、IoT、組み込みシステムにわたる強力な導入シナリオが可能になります。 

LFM2.5-1.2B-シンキングが本日よりご利用いただけるようになりました ハグフェイス飛躍、そして私たち プレイグラウンド

ベンチマーク

LFM 2.5-1.2B-考え方 は、への最新の追加です LFM2.5 ファミリー。推論タスク専用にトレーニングされた12億のパラメータモデルです。答えを出す前に思考の痕跡を生成し、問題を体系的に解決します。このモデルは、LFM 独自の推論速度を活用して、より質の高い回答を生成します。

Model
GPQA Diamond
MMLU-Pro
IFEval
IFBench
Multi-IF
GSM8K
MATH-500
AIME25
BFCLv3
LFM2.5-1.2B-Thinking*
37.86
(± 0.83)
49.65
(± 0.18)
88.42
(± 0.35)
44.85
(± 0.73)
69.33
(± 0.09)
85.60
(± 0.00)
87.96
(± 0.72)
31.73
(± 1.81)
56.97
(± 0.30)
Qwen3-1.7B (thinking mode)*
36.93
(± 2.07)
56.68
(± 1.29)
71.65
(± 0.13)
25.88
(± 0.30)
60.33
(± 0.02)
85.60
(± 1.13)
81.92
(± 2.99)
36.27
(± 1.24)
55.41
(± 0.04)
LFM2.5-1.2B-Instruct
38.89
44.35
86.23
47.33
60.98
64.52
63.20
14.00
49.12
Qwen3-1.7B (instruct mode)
34.85
42.91
73.68
21.33
56.48
33.66
70.40
9.33
46.30
Granite-4.0-H-1B
24.34
27.64
80.08
24.93
47.56
69.60
47.20
1
50.69
Granite-4.0-1B
24.24
33.53
79.61
21
43.65
73.42
44.80
3.33
52.43
Gemma 3 1B IT
24.24
14.04
63.25
20.47
44.31
42.15
45.20
1
16.64
Llama 3.2 1B Instruct
16.57
20.80
52.37
15.93
30.16
39.04
23.40
0.33
21.44

LFM2.5-1.2B-Instructと比較すると、数学推論(MATH-500では63→88)、命令フォロー(マルチIFでは61→69)、ツールの使用(BFClv3では49→57)の3つの機能が劇的に向上しています。

LFM2.5-1.2b-Thinkingは、パラメーターが40%少ないにもかかわらず、ほとんどの推論ベンチマークでQwen3-1.7Bと一致するか、それを上回ります。さらに、高い品質と効率的なテスト時の計算を兼ね備えています。Qwen3-1.7B (思考モード) と比較すると、全体的なパフォーマンスは高く、必要な出力トークンは少なくて済みます。

パフォーマンスギャップは推論時にさらに広がり、LFM2.5-1.2B思考はQwen3-1.7Bだけでなく、速度とメモリ効率の両面でGranite-4.0-H-1Bのようなハイブリッドアーキテクチャよりも優れています。

LFM2.5-1.2b思考はエージェント性と 推論の多い作業 (例:ツールの使用、数学、プログラミング)モデルが一連のツール呼び出しを計画し、中間結果を検証し、アプローチを調整する必要がある場合、推論トレースは真の価値をもたらします。ただし、チャット機能やクリエイティブライティングには LFM2.5-1.2B-Instruct を使用することをおすすめします。

トレーニングレシピ

優れたスモールシンキングモデルを構築するには、低レイテンシーのエッジ導入に向けた簡潔な回答を保ちながら、多段階の推論を通じて限られた知識容量を拡張する必要があります。

との以前の実験 LFM-1B-マス トレーニング中に推論トレースを含めると、モデルが「最初に理由、次に回答」のパターンを内面化するのに役立つことを示しました。合成推論トレースを教師付き微調整 (SFT) することで、さらに信頼性の高い思考連鎖の生成が可能になり、特定のフォーマットによる報酬が不要になります。

しかし、SFTは、推論モデルでよくある問題を解決しません。つまり、結論に達する代わりに繰り返しの多いテキストパターンにとらわれてしまうことです。この動作は一般に「」と呼ばれます。ドゥームループ。」わかりやすいアプローチでこれを軽減しました。

  1. 中に プリファレンスの配置、SFTチェックポイントから温度サンプリングされた5人の候補者と1人の貪欲な候補者を生成しました。選ばれた回答はLLM審査員の下で最高得点の候補でしたが、却下された回答はループが存在しない場合の最低得点の候補であり、(審査員のスコアに関係なく)ループが発生するたびにループする候補でした。
  2. 中に RLVRさらに、Nグラムベースの繰り返しペナルティを適用することで、トレーニングの早い段階でループすることを思いとどまらせました。
Midtraining
SFT
DPO
RLVR
Doom loop ratio
15.74%
14.98%
4.32%
0.36%

このアプローチにより、代表的なプロンプトのデータセットで、ドゥームループの割合が15.74%(トレーニング中)から0.36%(RLVR)に簡単に減少しました。

私たちのRLパイプラインはverl [1] の内部フォーク上に構築されており、クリティカルフリーでグループ相対的なポリシーグラデーション最適化(GRPO スタイル)に焦点を当てています。基本実装は参照不要で、非対称比率クリッピング、ゼロ分散プロンプトグループの動的フィルター処理、オーバーロングサンプルマスキング、アドバンテージなしの正規化、重要度の切り捨てサンプリング ([2-6] など) などの手法を取り入れています。個々の構成は調整されます。 ターゲットドメインごと一方、検証可能なタスクではルールベースの報酬が使用され、自由形式のプロンプトでは生成的報酬モデルが使用されます。さらに、クロストークナイザーによるポリシーに基づく抽出を主要目的または補助目的として検討したが、暫定的な結果では大きなメリットが見られなかった。

カリキュラムRLアプローチの簡略図。最後のチェックポイントは、ファミリーツリーに 25 のユニークなチェックポイントがある統合モデルです。

を採用しました カリキュラム RL 高度に並列化された構造によるアプローチ。1つのモデルを複数のドメインで同時にトレーニングするのではなく、基礎としてRLVRに従った指導から始め、次に分岐して推論、数学、ツールの使用のためのドメイン固有のチェックポイントを作成します。

この並列アプローチは、すべてのドメインで単一のモデルを一度にトレーニングする従来の方法とは対照的です。この方法では、能力の干渉につながり、回帰の診断が困難になることがよくあります。私たちのカリキュラムでは、より細かい制御が可能です。ドメイン固有のモデルはそれぞれ、独自の報酬形成、ハイパーパラメーター、評価基準を使用して個別に最適化できます。その後、応募します。 反復モデルマージ さまざまなステップを踏んで、ターゲットの機能をバランスよく組み合わせた新しいチェックポイントを作成します。たとえば、ツールの使用に重点を置いたトレーニングの後、以前の数学用に最適化されたチェックポイントと統合して、低下した数学推論のパフォーマンスを回復します。この柔軟性により、純粋な逐次トレーニングよりも能力のトレードオフをより効果的に乗り切ることができます。

このアプローチは、小規模で集中力のあるチームにとってもより効率的です。独立したワークストリームは、互いにブロックし合うことなく、それぞれのドメインで迅速に反復処理を行うことができます。共同でトレーニングを実施するよりも、共同で実施するトレーニングを統合することで、貢献内容を簡単にまとめることができます。モデルの統合は、専門的な改善を統合しながら全体的なパフォーマンスを維持できるため、汎用 RLVR をスケーリングするための実践的な方法となることがわかりました。

LFM エコシステムの拡大

LFM2.5を今すぐ微調整できます TRL そして ナマケモノ。LFM2.5-1.2B-Thinkingは、以下を含む最も一般的な推論フレームワーク全体で、デイゼロサポート付きでリリースされます。 llama.cpp MLX vLLM、および ONNX ランタイム。すべてのフレームワークは、Apple、AMD、クアルコム、Nvidia ハードウェアの CPU アクセラレーションと GPU アクセラレーションの両方をサポートしています。

LFM2.5モデルの全ファミリーはこちらからご覧いただけます。

Model
HF
LEAP
GGUF
MLX
ONNX
Playground
LFM2.5-1.2B-Base
LFM2.5-1.2B-Instruct
LFM2.5-1.2B-Thinking
LFM2.5-1.2B-JP
LFM2.5-VL-1.6B
LFM2.5-Audio-1.5B

LFM2.5ファミリーを必要な場所で効率的に稼働させるために、私たちはハードウェアとソフトウェアのエコシステムを急速に拡大しています。 クアルコム・テクノロジーズ株式会社オラマ、ファストフローLM、および カクタス・コンピュート 新しい打ち上げパートナーとして。

クアルコム・テクノロジーズ株式会社 のローンチパートナーであることを誇りに思っています リキッドAIのオープンウェイトLFM2.5‑1.2B思考。と ネクサAI'をNPU向けに最適化することで、開発者はよりスマートで高速なオンデバイスAIをSnapdragon搭載デバイスに導入し、パフォーマンスとプライバシーおよびエッジでの信頼性を組み合わせることができます。」— クアルコム・テクノロジーズ社製品管理担当副社長、ヴィネシュ・スクマール氏

この拡張により、ハードウェアとソフトウェアのサポートが大幅に広がります。既存のパートナーは ネクサ AI、最適なパフォーマンスを実現 クアルコム・テクノロジーズ株式会社 NPU、一方 ファストフロー LM 専用の高性能ランタイムを提供するために私たちに加わります AMD Ryzen™ NPU デバイス。さらに、 オラマ そして カクタス・コンピュート ローンチパートナーとして参加して、シームレスなローカルおよびエッジデプロイメントワークフローを実現してください。

以下の表は、これらの最適化された実装によって実現される推論アクセラレーションを示しています。

LFM2.5-1.2B思考の推論速度ベンチマーク

Device
Inference
Framework
Prefill (tok/s)
Decode (tok/s)
Memory
AMD Ryzen™ AI Max 395+
NPU
FastFlowLM
1487
60
1,600MB
AMD Ryzen™ AI 9 HX 370
NPU
FastFlowLM
1487
57
1,600MB
AMD Ryzen™ AI Max 395
CPU
llama.cpp (Q4_0)
6203
235
853MB
Qualcomm Snapdragon® X Elite
NPU
NexaML
2591
63
0.9GB
Qualcomm Snapdragon® 8 Elite (ROG Phone9 Pro)
NPU
NexaML
4391
82
0.9GB
Qualcomm Dragonwing™ IQ9 (IQ-9075) (IoT)
NPU
NexaML
2143
53
0.9GB
Qualcomm Snapdragon® 8 Elite For Galaxy (Samsung Galaxy S25 Ultra)
CPU
llama.cpp (Q4_0)
336
70
720MB
Apple M4 Pro (INT8)
CPU
Cactus Engine
540
96
722MB
Apple A19 Pro (INT8)
CPU
Cactus Engine
420
64
1128MB
Speed numbers reflect 1K prefill and 100 decode tokens.

LFM2.5-1.2b-思考はロングコンテキスト推論に優れています。 たとえば、FastFlowLMを搭載したAMD Ryzen™ NPUでは、デコードスループットは16Kコンテキストで最大52トーク/秒、フル32Kコンテキストでも最大46トークン/秒を維持します。これは、ロングコンテキストの堅牢なスケーラビリティを示しています。FastFlowLM 搭載の AMD Ryzen™ NPU におけるロングコンテキスト・ベンチマークの詳細については、以下をご覧ください。 ここに

始めよう

リリース以来、LFM2ファミリーがクロスオーバーしたことを発表できることを誇りに思います 600万ダウンロード ハグしている顔に。

LFM2.5により、私たちはどこでも実行できるAIというビジョンを実現しています。これらのモデルは以下のとおりです。

  • オープンウェイト — 制限なくダウンロード、微調整、導入が可能
  • 初日から早い — アップル、AMD、クアルコム・テクノロジーズ社、Nvidia ハードウェアにわたる llama.cpp、NexasDK、Cactus Engine、LM Studio、Ollama、FastFlowML、MLX、vLLM のネイティブサポート
  • 完全な家族 — カスタマイズ用の基本モデルから、オーディオやビジョンの特殊なバリエーションまで、1つのアーキテクチャで多様なユースケースに対応

エッジAIの未来はここにあります。皆さんが何を構築するのか楽しみです。

参考文献

[1] シェン、グァンミン、他 「ハイブリッドフロー:柔軟で効率的なRLHFフレームワーク。」 ラクシブ、2024年。
[2] アフマディアン、アラシュ他 「基本に戻る:LLMSにおける人間のフィードバックから学ぶための強化スタイル最適化の再検討。」 ラクシブ、2024年。
[3] シャオ、ジホン他 「Deepseekmath: オープン言語モデルにおける数学的推論の限界への挑戦。」 ラクシブ、2024年。
[4] ユー、チーイン他 「Dapo:大規模なオープンソースのLLM強化学習システム。」 ラクシブ、2025年。
[5] リュウ、ジチェン他 「r1-zeroのようなトレーニングの理解:批判的な視点。」 ラクシブ、2025年。
[6] ヤオ、フェン他 「あなたの効率的なRLフレームワークは、ポリシー外のRLトレーニングを密かにもたらします。」 フェン・ヤオの概念、2025年。

引用

この記事を次のように引用してください。

Liquid AI, "LFM2.5-1.2B-Thinking: On-Device Reasoning Under 1GB", Liquid AI Blog, Jan 2026.

または、BibTeXの引用を使用してください。

@article{liquidAI2026thinking,
  author = {Liquid AI},
  title = {LFM2.5-1.2B-Thinking: On-Device Reasoning Under 1GB},
  journal = {Liquid AI Blog},
  year = {2026},
  note = {www.liquid.ai/blog/lfm2-5-1-2b-thinking-on-device-reasoning-under-1gb},
}

エンタープライズデプロイメントとカスタムソリューションの場合、 営業チームにお問い合わせください。私たちを読んでください テクニカルレポート 実装の詳細については。

GPQA、MMLU-Pro、iFBench、AIME25が続きます 人工分析の方法論。iFevalとMulti-IFについては、プロンプトと指示の正確さが厳密または緩い場合の平均スコアを報告します。BFCLv3 では、ツール使用テンプレートをサポートするために、カスタム Liquid ハンドラーを使用して最終的な加重平均スコアを報告します。

*: Based on the same methodology, we report the average score and standard deviation across five runs with temperature=0.6 for thinking models. For instruct models, we report scores using greedy decoding.
AI を体験する準備はできていますか?

Liquid AI で、ビジネス、ワークフロー、そしてエンジニアの可能性を広げましょう。

プリファレンスを管理

当社は、お客様のブラウジング体験を向上させ、トラフィックを分析するためにクッキーを使用しています。「すべて同意する」をクリックすると、クッキーの使用に同意したものとみなされます。

さらに詳しく
  • 必須クッキーが必要です