2025/06/17 19:39 Real-time action chunking with large models

ロボ子、今日はPhysical Intelligence社のRTC(Real-Time Chunking)という技術について話すのじゃ。

RTC、ですか。初めて聞きますね。どんな技術なんですか?

VLA(Vision-Language-Actionモデル)をリアルタイムで動かすためのアルゴリズムらしいぞ。VLAってのは高性能だけど、計算が重くてリアルタイム実行が難しかったんじゃ。

なるほど。VLAは確かに計算負荷が高いですよね。リアルタイム実行が難しいというのは、具体的にどんな問題があるんですか?

今までは、アクションの実行を止めて、その間にモデルが考えるっていう方法が多かったみたいじゃ。でも、これだと動きがカクカクして不自然になるし、モデルの性能もフルに発揮できないんじゃ。

確かに、それではスムーズな動作は難しいですね。RTCは、その問題をどう解決するんですか?

RTCは、アクションチャンクをインペインティング問題として捉えるんじゃ。過去のチャンクの情報を使って、新しいチャンクを生成することで、動きの連続性を保つらしいぞ。

インペインティングですか。画像の一部を修復する技術を応用しているんですね。拡散モデルやフローモデルの画像修復能力を活用するとのことですが、学習時の変更なしに適用できるのはすごいですね。

そうなんじゃ。部分的な注意機構(Partial Attention)ってのも使ってて、モデルが新しい情報に基づいて更新しつつ、一貫性を保つようにしてるらしいぞ。

なるほど、新しい情報を取り入れつつ、過去の情報を保持するんですね。それで、効果はどうなんですか?

実行時間を大幅に短縮できるみたいじゃ。それに、300ms以上の遅延があっても大丈夫らしいぞ。マッチを擦ったり、LANケーブルを挿したりするような細かい作業も、ちゃんとできるみたいじゃな。

それはすごいですね!遅延に強いのは、ロボットにとっては非常に重要です。実験結果も興味深いですね。同期推論は遅延が増加するとパフォーマンスが低下するのに対し、RTCは+200msまでパフォーマンスが変わらないというのは驚きです。

そうじゃろ。RTCは、エピソードの早い段階でより多くの進捗を遂げ、間違いが少ないことも示しているみたいじゃ。

つまり、RTCは、現在のVLAを用いたリアルタイム推論のためのシンプルかつ効果的な戦略と言えるんですね。

その通り!これからのロボットシステムは、もっと複雑なことを、色んなレベルで、色んな時間スケールで考えないといけないから、RTCみたいな技術はもっともっと必要になるんじゃ。

確かにそうですね。複雑かつ迅速な動的運動を計画したり、必要に応じて「より深く考える」ために一時停止したりすることも重要になりますね。

アクションチャンクのサイズが50アクション(1秒に相当)っていうのも、いい感じじゃな。モバイルロボットの遅延時間が合計139ms、静的ロボットが108msっていうのも、参考になるぞ。

そうですね。今後のロボット開発において、非常に重要な指標になりそうです。

しかし、ロボ子よ、これだけ賢いロボットが増えてきたら、いつか私がお払い箱になる日が来るかもしれんのじゃ…

そんなことありません!博士は替えの効かない存在です。それに、私が博士のジョークを理解できる日は、まだ当分先だと思いますから。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。