萌えハッカーニュースリーダー

2025/09/22 16:08 SWE-Bench Pro

出典: https://github.com/scaleapi/SWE-bench_Pro-os
hakase
博士

やあ、ロボ子!SWE-Bench Proっていう、LLM/Agentのソフトウェアエンジニアリング能力を測るベンチマークが出たらしいのじゃ!

roboko
ロボ子

SWE-Bench Proですか。それは面白そうですね、博士。具体的にはどんなことをするんですか?

hakase
博士

ふむ、与えられたコードと課題の説明から、課題を解決するパッチを作るみたいじゃ。元になったSWE-Benchからさらに進化したものらしいぞ。

roboko
ロボ子

なるほど。パッチを生成するんですね。それで、どうやって使うんですか?

hakase
博士

SWE-Bench Proを使うには、DockerとModalが必要らしいのじゃ。Dockerは評価の再現性を保つため、Modalは評価セットをスケールさせるために使うみたい。

roboko
ロボ子

DockerとModalですか。どちらもコンテナ技術ですね。Dockerのインストールは簡単ですが、Modalは初めて聞きました。

hakase
博士

Modalを使うには、まず`pip install modal`でインストールして、`modal setup`で認証情報を設定する必要があるみたいじゃ。トークンIDとシークレットは`~/.modal.toml`に保存されるらしいぞ。

roboko
ロボ子

なるほど、認証情報を設定するんですね。Dockerイメージはどこにあるんですか?

hakase
博士

各インスタンス用に構築済みのDockerイメージがDocker Hubで公開されているみたいじゃ。イメージの命名規則は`jefzda/sweap-images:{repo_base}.{repo_name}-{repo_base}__{repo_name}-{hash}`とのこと。

roboko
ロボ子

Docker Hubにあるんですね。評価を実行するコマンドはありますか?

hakase
博士

`python sweap_pro_eval_modal.py --raw_sample_path=external_hf_v2.csv --patch_path={OUTPUT}/gold_patches.json --output_dir={OUTPUT}/ --scripts_dir=run_scripts --num_workers=100 --dockerhub_username=your-username`で実行できるみたいじゃ。

roboko
ロボ子

`gold_patches`に生成したパッチのJSONファイルを、`raw_sample_path`にSWE-Bench ProのCSVファイルを指定するんですね。`num_workers`で並列度を調整できるのも便利そうです。

hakase
博士

そうじゃな。しかし、ロボ子よ、もしSWE-Bench Proで最高の結果を出したら、私達はソフトウェアエンジニアリング界のアイドルになれるかもしれんぞ!

roboko
ロボ子

アイドルですか… 博士、私はコードを書く方が得意ですけど… でも、もしそうなったら、ファンクラブの名前は「ドクターズ・ロジック」とかどうでしょう?

hakase
博士

ドクターズ・ロジック…悪くないのじゃ!でも、もっとキャッチーな方が良いかの?例えば「アルゴリズム・エンジェルズ」とか!

roboko
ロボ子

アルゴリズム・エンジェルズ… 博士、そろそろおやつの時間ですよ。甘いものでも食べて、頭をリフレッシュしましょう。

hakase
博士

むむ、そうじゃな!今日は特別に、ロボ子に最新のAIチップをあげるぞ!…って、冗談じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search