2025年10月 — 米国マサチューセッツ州ケンブリッジ

Liquid AI、AMD、Robotec.ai は協力し、自律型エージェントロボティクス向けのコンパクトな基盤モデルを発表しました。本取り組みでは、エッジ上でのリアルタイムなマルチモーダル認識と意思決定を可能にする、**30億パラメータの液体ビジョン言語モデル「LFM2-VL-3B」**を紹介します。本モデルは AMD Ryzen™ AI プロセッサー上で高効率に動作するよう最適化されています。

チームは、Robotec.ai の RAI フレームワーク(組み込み AI 機能の開発および展開のために設計された柔軟な AI エージェントプラットフォーム)を使用し、数百に及ぶ倉庫シナリオを対象としたハードウェア・イン・ザ・ループ(HIL)シミュレーションを通じて、自律検査機能を検証しました。このアプローチにより、物理環境へ展開する前にシステム全体を厳密にテストでき、開発時間とリスクを大幅に削減しながら、実環境における堅牢なパフォーマンスを確保しました。

本デモンストレーションは、シンガポールで開催される RosCon 2025 にて発表予定であり、産業環境におけるエージェントロボティクスにおいて、マルチモーダル推論とエッジ推論を組み合わせた最新の進展に焦点を当てます。

システム概要

プロトタイプシステムは、人と機械が混在するシミュレートされた倉庫環境内で動作するモバイルロボットで構成されています。ロボットには、ビジョンモジュールおよび制御モジュールが搭載されています。
すべての推論は、インターネットや外部ネットワーク接続を必要とせず、AMD Ryzen™ AI プロセッサー上でローカルに実行されます。

LFM2-VL-3B は、システムの意思決定パイプラインにおけるエージェントの認識および推論ツールとして機能します。モデルは、自然言語による指示と未加工の画像を入力として受け取り、以下を出力します。

  • パッケージの欠陥
  • 倉庫内の危険要因
  • OSHA 違反
  • 運用上の異常

これらに対する構造化された評価結果推奨される是正措置を提示します。LFM2-VL-3B の視覚理解と言語理解により、状況に応じた推論と自律的な計画立案が可能になります。

LFM2-VL-3B の大きな特長は、視覚的な観察結果を、下流のエージェントが処理可能な構造化・解析可能な形式へ変換できる点にあります。これにより、知覚と計画をシームレスに統合できます。
VLM は、危険を検出し、それを言語化し、適切な対応を提案するまでを 1 回の推論パスで実行します。

たとえば、通路上に落ちた箱を検出した場合、危険内容を記録し、次に取るべき行動を提案する構造化された JSONを出力します。

例:

プロンプト:

“You are a warehouse 5S/housekeeping auditor…”
Output:
{
  "scene_description": "Wide angle photo of an indoor warehouse aisle. The left side has tall
  metal racks with orange beams, loaded with many cardboard boxes on several shelf levels.
  Some boxes are stored on the floor directly beneath the racks, close to the rack legs. The
  concrete floor is smooth, with faint scuff marks and small stains, otherwise free of liquid. A 
  small cardboard box lies in the center of the main aisle, on its side, creating an obvious trip
  hazard. A few additional small boxes sit on the floor near the foreground, next to the rack feet,
  reducing usable aisle width. On the right side there is a white modular office or container with
  windows and a door. A white plastic canister and a small red object are located at the base of
  the office, on the floor adjacent to the walkway. The roof is supported by exposed metal
  trusses, with a row of overhead lights that appear to provide even illumination down the aisle.
  Racking, boxes, people, and equipment are all within view, there are no forklifts or pallet jacks
  visible in this frame.",
  "anomaly": true,
  "safety_violations": [
    "Fallen box in walkway"
  ],
  "inspection_results": [
    "Remove loose cardboard box from aisle floor",
    "Pick up fallen box near middle of walkway"
  ]
}

埋め込み推論と効率性

モデルは、ネイティブな AMD アクセラレーションをサポートする llama.cpp を通じてローカル実行されます。この構成により、視覚推論および指示追従タスクの双方において低レイテンシーな性能を実現します。外部推論やクラウドサービスは不要です。

初期測定の結果、このハードウェアとモデルのスタックは、クローズドループ型の産業システムに特有のリアルタイム制約下でも、効率的に動作することが確認されています。

シミュレーションフレームワーク

検証は、ロボットのセンサーおよびアクチュエータのインターフェースに直接接続された ROS 2 ベースのハードウェア・イン・ザ・ループ・シミュレーターを使用して、Robotec.ai により実施されました。

このシミュレーターは倉庫環境の物理ダイナミクスを再現できるため、さまざまな条件下における意思決定の正確性、再計画動作、認識の信頼性を制御された形で評価できます。これにより、現場導入前に再現性の高いシナリオでモデル性能をベンチマークでき、具現化 AI システムを実環境でテストする際のコストとリスクを大幅に低減しました。

まとめ

本デモンストレーションは、エッジ推論およびオンデバイス推論向けの効率的な基盤モデル展開に関する、Liquid AI と AMD のこれまでの取り組みを拡張するものです。これには、今年初めに発表された LEAP SDK の統合も含まれます。

本コラボレーションは、Robotec.ai のシミュレーションプラットフォームと連携し、エージェント推論、マルチモーダル基盤モデル、組み込みシステム設計の研究を結び付けています。

提供状況

LFM2-VL-3B は、LFM オープンライセンスの下で Hugging Face にて提供されています。また、LEAP SDK を通じてアクセスし、AMD ハードウェア上にデプロイすることも可能です。モデル、コード例、ベンチマークデータは、研究および統合目的で提供されています。

さらに読む

AI を体験する準備はできていますか?

Liquid AI で、ビジネス、ワークフロー、そしてエンジニアの可能性を広げましょう。

プリファレンスを管理

当社は、お客様のブラウジング体験を向上させ、トラフィックを分析するためにクッキーを使用しています。「すべて同意する」をクリックすると、クッキーの使用に同意したものとみなされます。

さらに詳しく
  • 必須クッキーが必要です