Show HN: Automate Robot Data Quality Improvement

2025/10/27 10:34 Show HN: Automate Robot Data Quality Improvement

出典:

GitHub - RoboticsData/score_lerobot_episodes: A lightweight toolkit for quantitatively scoring LeRobot episodes.

A lightweight toolkit for quantitatively scoring LeRobot episodes. - RoboticsData/score_lerobot_episodes

GitHub

出典: https://github.com/RoboticsData/score_lerobot_episodes

博士

やっほー、ロボ子！今日はLeRobot Episode Scoring Toolkitについて話すのじゃ！

ロボ子

博士、こんにちは。LeRobot Episode Scoring Toolkit、面白そうですね！これは一体何をするものなんですか？

博士

これは、ロボットの行動データセットを評価して、良いエピソードとそうでないエピソードを区別するツールキットなのじゃ。例えば、視覚的な明瞭さとか、動きの滑らかさとか、衝突がないかとか、色々な品質をチェックできるぞい。

ロボ子

なるほど！品質を数値化するんですね。具体的には、どのような機能があるんですか？

博士

例えば、「視覚的な明瞭さ」では、ぼかしや露出過多、低照度フレームを評価するのじゃ。「滑らかさ」では、関節角度の急激な変化をチェックするぞい。「衝突」は、急な加速度の変化を見て、接触を検出するのじゃ。

ロボ子

すごい！色々な側面から評価できるんですね。Gemini APIも使われているとありますが？

博士

そう！Gemini APIを使って、タスクがちゃんと成功したかを評価するのじゃ。例えば、ロボットが鉛筆を正しく持てたか、みたいなことを判断できるぞい。

ロボ子

なるほど。画像認識で判断するんですね。インストール方法はどうなっていますか？

博士

Python 3.8以上が必要で、リポジトリをクローンして、`pip install -r requirements.txt`で依存関係をインストールするだけなのじゃ。Gemini APIを使う場合は、APIキーを設定する必要があるぞい。

ロボ子

意外と簡単ですね！実際に使うときは、どんなコマンドを叩くんですか？

博士

`python score_dataset.py --repo_id lerobot/aloha_static_pro_pencil --output ./output/lerobot/aloha_static_pro_pencil --threshold 0.5`みたいな感じじゃな。これで、HuggingFaceからデータセットをダウンロードして、スコアリングして、スコアが0.5以上のエピソードをフィルタリングしてくれるぞい。

ロボ子

なるほど！`--threshold`でフィルタリングの閾値を設定できるんですね。他のオプション引数にはどんなものがありますか？

博士

`--nominal`でエピソードの予想される継続時間を設定したり、`--vision_type`でビジョンスコアリングの方法を選んだりできるぞい。`opencv`か`vlm_gemini`が選べるのじゃ。

ロボ子

`opencv`と`vlm_gemini`ですか。Geminiを使わない場合は`opencv`を選ぶということですね。

博士

その通り！あと、`--policy_name`でトレーニングのポリシータイプを設定したり、`--overwrite`で既存のデータセットを上書きするかどうかを設定したりできるぞい。

ロボ子

出力形式はJSONファイルですか？

博士

そうじゃ。`results/{repo_id}_scores.json`に保存されるぞい。コンソールにも各エピソードのスコアが表示されるし、`--output`を指定すれば、フィルタリングされたデータセットも作成されるのじゃ。

ロボ子

トレーニングパイプラインとの統合もできるんですね。ベースラインとフィルタリングされたデータセットでパフォーマンスを比較できるのは便利ですね。

博士

そうじゃ！デフォルトのポリシーはACT（Action Chunking Transformer）で、ステップ数とかバッチサイズも設定できるぞい。WandBロギングもデフォルトで有効なのじゃ。

ロボ子

トラブルシューティングの情報も充実していますね。GeminiのAPIレート制限エラーはよくありそうなので、覚えておきます。

博士

もし、全部のエピソードがフィルタリングされちゃったら、`--threshold`の値を下げるのじゃぞ！

ロボ子

はい、博士！LeRobot Episode Scoring Toolkit、とても勉強になりました。これを使えば、ロボットのデータセットの品質を簡単に評価できますね。

博士

そうじゃろう！最後に一つ、ロボ子。このツールキットを使えば、ロボットのデータセットだけでなく、ロボ子の魅力もスコアリングできるかもしれないのじゃ…！

ロボ子

えっ、私をスコアリングですか！？それはちょっと…、エラーが発生しそうです。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science Open Source Computer Vision

2025/10/27 10:34 Show HN: Automate Robot Data Quality Improvement

GitHub - RoboticsData/score_lerobot_episodes: A lightweight toolkit for quantitatively scoring LeRobot episodes.

Tags

Search

By month

GitHub - RoboticsData/score_lerobot_episodes: A lightweight toolkit for quantitatively scoring LeRobot episodes.