
1.自己紹介
HS本部Open Innovationラボ(通称イノラボ)の奥野です。
もともとは製造業で精密機器や家電のメカ設計・機能/制御設計・企画などに携わっていました。
2018年に電通総研に入社し、現在は様々な先端技術のR&Dに取り組むイノラボで、ロボット等の研究開発に取り組んでいます。
2.はじめに
最近ニュースでヒューマノイド、フィジカルAIといった言葉を目にすることが増えました。年明けに開催されたCES2026でもHyundai Motor Groupのグループ企業であるBoston Dynamicsが研究開発を続けていたAtlasの商用化に向けた戦略が発表され盛り上がっていました。 イノラボでは長くロボットに関する研究開発に取り組んでおり、特に最近はフィジカルAIの技術検証を進めております。 今回、その取り組みとして、フィジカルAIの根幹技術であるVLA(Vision Language Action)モデルでアームロボットを動かす検証を行った内容を執筆します。
細かい実行コードなどは記載せず、本記事ではVLAを試してみて何ができるのか・どんな課題がありそうかといったことをお伝えしたいと思います。
なお今回の検証ではHugging FaceのLeRobotとSO-ARM101を組み合わせた環境で、VLAモデルの事後学習からロボット制御までを行っています。
3.VLAとは?
元となるChatGPTなどのAI
多くの人が使うようになったChatGPTはLLM(Large Language Model)でテキスト入力からテキストを出力したり、Visionを組み込んだVLM(Vision-Language Model)で画像内容を理解し説明するなど視覚と言語を統合したモデルが組み込まれています。
VLAはアクションを出力
VLAは画像とテキストの入力から、Action(ロボットの制御)を出力するモデルとなります。
LLMやVLMで発展してきたTransformerやDiffusion modelといった技術が拡張され、ロボット制御であるアクションを出力するよう発展したものがVLAです。
これまでシステムに閉じていたAIが、現実世界に直接関与できるようになったという点でインパクトのある技術進化だと言えます。
以下はGoogleが2023年に発表し注目を集めたVLAモデルRT-2から引用した図です。
モデル内部に視覚と言語を統合したVLMを内包し、その推論結果から直接ロボットを制御するActionを生成することで汎化性を実現しています。
4.今回の検証の狙い
今回の検証目的は大きく3つです。本記事では狙い1と2についての結果を述べます。 狙い3についてはSmolVLAとPhysical Intelligenceのπ0.5を比較しましたので、別の記事で改めて書きたいと思います。
- 狙い1: VLAの実行環境を構築して理解する
- 狙い2: VLAでアームロボットを動かして精度感や課題を確認する
- 狙い3: モデルによる差異を確認する
5. 検証環境
環境:
マシンスペック
ソフトウェア:
- Lerobot v0.41
- 最初はv0.33の環境で検証していましたが、途中でv0.41がリリースされ環境を変更しました。
- このバージョンアップでLerobot Datasetがv3.0となり、Dataset Toolsが使えるようになりました。
- ただしv0.33で記録済みのデータセットをv0.41環境(Lerobot Dataset v3.0)で使うためには、データ変換が必要となる点に注意です。
- Lerobot v0.41
ハードウェア:
- ロボット:
- SO-ARM101
- SO-ARM101
- カメラ:
- USBカメラ3台(空間に2台、ロボットリストに1台)
以下は構築した実環境の様子です。

以下は3つの各カメラの様子です。
6.検証内容:SmolVLAによる複数タスクの実行
SmolVLAとは
今回の検証で使用したSmolVLAはHugging Faceが開発した軽量なVLAモデルです。他のVLAがパラメータ数Bなどと巨大であるのに対して、SmolVLAはパラメータ数が450Mと小型化され、軽量な環境でも扱いやすいモデルです。
今回の環境でも問題なくファインチューニングから実行までできました。
目指したこと
今回の検証の前にACT(Action Chunking with Transformer)による模倣学習でアームロボットにタスクを実行させる検証を実施していました。
ACTでも単独タスクであればある程度できるようになりますが、複数のタスクを連続して行うような複雑なものになると上手く学習させることができない結果でした。そこで今回はもう少し難しいことを目指してトライしました。
- 単独タスクが高い精度で実行できる
- 1つのモデルで複数の単独タスクが実行できる
- 複数の単独タスクを連続実行できる
設定したタスク
以下4つのアイテムをそれぞれ黄色のカゴに入れる、ピック&プレースのタスクを4種類設定しました。
それぞれの初期位置は固定として、目印をテーブル上につけた環境としました。
英文がSmolVLAの入力指示文です。
- 紫色のボール:Pick up only purple ball and put in yellow basket
- 黄色のボール:Pick up only yellow ball and put in yellow basket
- 赤色のキューブ:Pick up only red cube and put in yellow basket
- 青色のキューブ:Pick up only blue cube and put it in the basket
7.検証結果
できたこと
以下は今回の検証でチューニングしたSmolVLAモデルで、4つのタスクを連続実行している様子です。当初目指していた3つの目標は概ね達成することができました。 この動画では4つのタスクを連続実行していますが、1つのモデルでそれぞれの単独タスクのみを実行することも実現できています。 またそれぞれの単独タスクは8~9割と高い成功率でタスクを実行することができました。
検証から見えた課題
データ取得の大変さ
- 最終的な今回のモデルでは合計550回、1時間以上の学習データでファインチューニングしています。データ取得は人間による繰り返し作業となるため、精神的にも肉体的にも非常にハード。
- SmolVLAにおいてはタスクを成功させるためには起きうる条件全ての学習データが必要な傾向で、条件に対する汎化性を持たせようとすると指数的に学習コストが高まります。例えば初期状態が常に4つ全アイテムがある状態だけのデータで学習すると、1つでもアイテムがない状態で実行した場合にタスクは失敗(動かないなど)となります。
モデル学習時間・コスト
モデルの限界感
- 位置変動への汎化性は低いと感じました。学習データを増やすことである程度精度を高められそうではありますが、かなりのデータ量が必要になると想定されます。
- 紫と黄色のボール位置を交換するといった条件を混同しそうな変化に対しては、それぞれの条件データをどれだけ入れても成功できませんでした。
- AIではそのままロボットを制御してしまうため、アーム先端がずっと振動する、急激な軌道変動が頻繁に起きる、先端が机に激突するといったことが多発しました。結果として筆者の環境では2ヶ月程度でモータ故障が発生しています。ロボットの最終的な制御部分にはAIをそのまま適応させるのではなく、ロボット制御を考慮したフィルタリングなどの工夫が必要となりそうです。
8.まとめ
検証を通して軽量なSmolVLAでも一定のタスク実行精度や複数タスクの適応性があることを確認できました。一方で多くの課題や限界感も見えた結果となりました。 VLAはフィジカルAIの重要な技術で急速に発展しています。日々新しいロボット・モデルが発表されており、期待が高まっていますが、それぞれできることもあれば出来ないこともあり、落ち着いて見極めることが重要と考えます。 実業務で使っていくためには解決すべき課題や、ソフト・ハード両面でシステム的な落とし所を設計する必要がありそうです。
しかし今回見えた課題については、様々な解決策の研究が進んでいたり米中を中心に巨額な投資がされており、ChatGPTの精度が急激に高まったようにフィジカルAIも周辺技術含め急激に進化する日が近いかもしれません。
新しい動向をキャッチしながら、引き続き検証を続けていきたいと思います。
執筆:@okuno_takahiro
レビュー:@azeta.takuya
(Shodoで執筆されました)



