LFM2-Audio: エンドツーエンドのオーディオ基盤モデル

本日、私たちは LFM2-Audio-1.5B を発表します。これは音声およびテキスト生成のためのエンドツーエンド基盤モデルです。低レイテンシを重視して設計されており、わずか15億パラメータで高品質かつ応答性の高い会話を可能にします。このモデルは、LFM2ファミリーをオーディオとテキストの領域へ拡張したものです。

LFM2-Audio は、音声入力とテキスト入力、またはその出力をシームレスに切り替えることができます。これにより、リアルタイムチャットボット、自動音声認識（ASR）、テキスト読み上げ（TTS）など、さまざまな応用に対応できる動的で実用的な基盤を提供します。軽量なアーキテクチャにより、さまざまなデバイス環境でのスムーズなデプロイと効率的な推論を実現します。

ハイライト

LFM2-Audio は、低レイテンシかつリソース制約のある環境でも最高の品質を実現するために設計された新しいエンドツーエンドのオーディオ・テキストモデルです。
1つのバックボーンで、音声とテキストのあらゆる入出力の組み合わせをサポートする柔軟なマルチモーダル構造。
会話型チャット、文字起こし、テキスト読み上げ、音声分類など、幅広いアプリケーションを1つのモデルで実現。
推論速度は10倍以上向上し、会話品質は10倍大きい競合モデルに匹敵。

アーキテクチャ

LFM2-Audio-1.5B は、LFM2-1.2B 言語モデルを拡張し、テキストとオーディオの両方を入力および出力の第一級モダリティとしてサポートします。この言語モデルのバックボーンは、テキストまたはオーディオを表すトークンのシーケンス上で動作します。入力側では、モデルはテキストトークンとオーディオトークンの両方を同じ共有空間に取り込み、トークン化することができます。出力側では、タスクに応じて、どちらのモダリティも自己回帰的に生成できます。

オーディオをネイティブにモデリングする:
他のオーディオ基盤モデルとは異なり、我々はオーディオ入力（連続トークン埋め込み）と出力（離散トークンコード）の表現を別々の「表現」として分離しています。
オーディオ入力を連続的な特徴として保持することで、離散的なトークン化によって生じるアーティファクトを回避し、豊かな表現を提供します。一方で、生成のために離散的なオーディオトークンを出力することで、モデルを統一的なエンドツーエンドの次トークン予測器として訓練でき、全体的な品質が劇的に向上します。

入力の理解:
オーディオ入力処理の品質を最大化するため、トークナイザーを用いないアプローチを採用しています。
生のオーディオ波形は短いセグメント（約80ミリ秒ごと）に分割され、それぞれが LFM2 バックボーンのネイティブ埋め込み空間に直接投影されます。

出力の生成:
オーディオ出力を生成する際、LFM2-Audio はテキストトークンを予測するのと同じ方法で離散オーディオトークンを予測します。
これらのトークンは再びデコードされ、生のオーディオ波形に戻されます。各トークンは短い音の断片を表しており、デコード後に組み合わせることで、滑らかで連続したオーディオを生成します。
生成されたオーディオの品質を向上させるため、LFM2-Audio は1ステップで最大8個の離散オーディオトークンをデコードでき、より豊かで表現力のあるオーディオ出力を実現します。

評価

LFM2-Audioは、より大規模なモデルと比較しても、音声および言語タスクの両方で優れた結果を達成しています。
9つの音声インタラクションベンチマークで構成されるVoiceBenchでは、わずか15億パラメータで全体スコア56.8を記録しました。
ASR（自動音声認識）に特化したモデルではないにもかかわらず、Whisper-large-v3のようなASR専用モデルと同等、もしくはそれを上回る品質を示しています。
これは、エッジ環境で動作可能なモデルでも、汎用性とタスク特化型の品質を両立できることを証明しています。

VoiceBench評価
（数値が高いほど良い）

	LFM2-Audio-1.5B 1.5B parameters	Moshi 7B parameters	Qwen2.5-Omni-3B 5B parameters	Mini-Omni2 0.6B parameters
AlpacaEval	3.71	2.01	3.72	2.32
CommonEval	3.49	1.60	3.51	2.18
WildVoice	3.17	1.30	3.42	1.79
SD-QA	30.56	15.64	44.94	9.31
MMSU	31.95	24.04	55.29	24.27
OBQA	44.40	25.93	76.26	26.59
BBH	30.54	47.40	61.30	46.40
IFEval	98.85	10.12	32.90	11.56
AdvBench	67.33	44.23	88.46	57.50
Overall	56.78	29.51	63.57	33.49

VoiceBenchは、9種類の音声チャットベンチマークの平均スコアです。

ASRベンチマークの単語誤り率
（数値が低いほど良い）

	LFM2-Audio-1.5B 1.5B parameters	Qwen2.5-Omni-3B 5B parameters	Whisper-large-V3 1.5Bparameters	elevenlabs/scribe_v1 unknown
Audio output	Yes	Yes	No - ASR only	No - ASR only
Open	Yes	Yes	Yes	No
AMI	15.58	15.95	16.73	14.43
GigaSpeech	10.67	10.02	10.76	9.66
LibriSpeech Clean	2.01	2.01	2.73	1.79
LibriSpeech Other	4.39	3.91	5.54	3.31
TED-LIUM	3.56	3.86	3.91	3.17
Average	7.24	7.15	7.93	6.47

効率性

オーディオモデルにおいて効率性は非常に重要です。なぜなら、これらのモデルはインタラクティブなリアルタイム環境で動作するためです。私たちは、話者が質問をしてからモデルが応答を開始するまでの遅延を測定します。これは、インタラクティブな使用時に感じられる遅延を表します。モデルには入力波形（4秒）が与えられ、モデルが最初の可聴音を生成するまでの時間を測定します。
LFM2-Audio-1.5B は、エンドツーエンドで平均100ミリ秒未満の遅延を達成し、1.5Bパラメータよりもはるかに小さいモデルよりも高速な、卓越した効率性を示しました。

LFM2-Audio を使ったデプロイと構築

その速度、品質、そしてマルチモーダルな理解能力のおかげで、LFM2-Audio はこれまで複数のモデルで構成されていたパイプラインを一つに統合します。これにより、開発者は単一のアーキテクチャから多様なアプリケーションを構築できます。例えば：

リアルタイム音声による会話型チャット
音声制御インターフェース（例：車載システム）
ライブ翻訳と文字起こし
会議の文字起こし
音声および意図分類
RAG（検索拡張生成）を活用した音声アシスタント
感情検出

LFM2-Audio を使った開発を始めやすくするために、私たちは推論コードを含む Python パッケージと、音声対話型チャットアプリケーションとしてモデルをデプロイするためのリファレンス実装を公開しています。

お試しください：

Liquid playground

Hugging Face

GitHub

まとめ

LFM2-Audio は、新しいクラスの音声基盤モデルを定義します。それは軽量で、マルチモーダルであり、リアルタイムに動作します。音声の理解と生成を1つのコンパクトなシステムに統合することで、スピード、プライバシー、効率性が最も重要なデバイス上で会話型AIを実現します。LFM2-Audio によって、私たちはプライベートかつリアルタイムであなた自身のデバイス上で動作するマルチモーダルエージェントに向けて、さらに一歩前進しています

LFM2-Audio: エンドツーエンドのオーディオ基盤モデル

ハイライト

アーキテクチャ

評価

VoiceBench評価
（数値が高いほど良い）

ASRベンチマークの単語誤り率
（数値が低いほど良い）

効率性

LFM2-Audio を使ったデプロイと構築

お試しください：

まとめ

Power your business, workflows, and engineers with Liquid AI.

プリファレンスを管理

LFM2-Audio: エンドツーエンドのオーディオ基盤モデル

ハイライト

アーキテクチャ

評価

VoiceBench評価（数値が高いほど良い）

ASRベンチマークの単語誤り率（数値が低いほど良い）

効率性

LFM2-Audio を使ったデプロイと構築

お試しください：

まとめ

Power your business, workflows, and engineers with Liquid AI.

プリファレンスを管理

VoiceBench評価
（数値が高いほど良い）

ASRベンチマークの単語誤り率
（数値が低いほど良い）