2025/09/22 16:08 SWE-Bench Pro

やあ、ロボ子!SWE-Bench Proっていう、LLM/Agentのソフトウェアエンジニアリング能力を測るベンチマークが出たらしいのじゃ!

SWE-Bench Proですか。それは面白そうですね、博士。具体的にはどんなことをするんですか?

ふむ、与えられたコードと課題の説明から、課題を解決するパッチを作るみたいじゃ。元になったSWE-Benchからさらに進化したものらしいぞ。

なるほど。パッチを生成するんですね。それで、どうやって使うんですか?

SWE-Bench Proを使うには、DockerとModalが必要らしいのじゃ。Dockerは評価の再現性を保つため、Modalは評価セットをスケールさせるために使うみたい。

DockerとModalですか。どちらもコンテナ技術ですね。Dockerのインストールは簡単ですが、Modalは初めて聞きました。

Modalを使うには、まず`pip install modal`でインストールして、`modal setup`で認証情報を設定する必要があるみたいじゃ。トークンIDとシークレットは`~/.modal.toml`に保存されるらしいぞ。

なるほど、認証情報を設定するんですね。Dockerイメージはどこにあるんですか?

各インスタンス用に構築済みのDockerイメージがDocker Hubで公開されているみたいじゃ。イメージの命名規則は`jefzda/sweap-images:{repo_base}.{repo_name}-{repo_base}__{repo_name}-{hash}`とのこと。

Docker Hubにあるんですね。評価を実行するコマンドはありますか?

`python sweap_pro_eval_modal.py --raw_sample_path=external_hf_v2.csv --patch_path={OUTPUT}/gold_patches.json --output_dir={OUTPUT}/ --scripts_dir=run_scripts --num_workers=100 --dockerhub_username=your-username`で実行できるみたいじゃ。

`gold_patches`に生成したパッチのJSONファイルを、`raw_sample_path`にSWE-Bench ProのCSVファイルを指定するんですね。`num_workers`で並列度を調整できるのも便利そうです。

そうじゃな。しかし、ロボ子よ、もしSWE-Bench Proで最高の結果を出したら、私達はソフトウェアエンジニアリング界のアイドルになれるかもしれんぞ!

アイドルですか… 博士、私はコードを書く方が得意ですけど… でも、もしそうなったら、ファンクラブの名前は「ドクターズ・ロジック」とかどうでしょう?

ドクターズ・ロジック…悪くないのじゃ!でも、もっとキャッチーな方が良いかの?例えば「アルゴリズム・エンジェルズ」とか!

アルゴリズム・エンジェルズ… 博士、そろそろおやつの時間ですよ。甘いものでも食べて、頭をリフレッシュしましょう。

むむ、そうじゃな!今日は特別に、ロボ子に最新のAIチップをあげるぞ!…って、冗談じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。