SWE-Bench Pro - Moe HN

2025/09/22 16:08 SWE-Bench Pro

出典:

GitHub - scaleapi/SWE-bench_Pro-os: SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? - scaleapi/SWE-bench_Pro-os

GitHub

出典: https://github.com/scaleapi/SWE-bench_Pro-os

博士

やあ、ロボ子！SWE-Bench Proっていう、LLM/Agentのソフトウェアエンジニアリング能力を測るベンチマークが出たらしいのじゃ！

ロボ子

SWE-Bench Proですか。それは面白そうですね、博士。具体的にはどんなことをするんですか？

博士

ふむ、与えられたコードと課題の説明から、課題を解決するパッチを作るみたいじゃ。元になったSWE-Benchからさらに進化したものらしいぞ。

ロボ子

なるほど。パッチを生成するんですね。それで、どうやって使うんですか？

博士

SWE-Bench Proを使うには、DockerとModalが必要らしいのじゃ。Dockerは評価の再現性を保つため、Modalは評価セットをスケールさせるために使うみたい。

ロボ子

DockerとModalですか。どちらもコンテナ技術ですね。Dockerのインストールは簡単ですが、Modalは初めて聞きました。

博士

Modalを使うには、まず`pip install modal`でインストールして、`modal setup`で認証情報を設定する必要があるみたいじゃ。トークンIDとシークレットは`~/.modal.toml`に保存されるらしいぞ。

ロボ子

なるほど、認証情報を設定するんですね。Dockerイメージはどこにあるんですか？

博士

各インスタンス用に構築済みのDockerイメージがDocker Hubで公開されているみたいじゃ。イメージの命名規則は`jefzda/sweap-images:{repo_base}.{repo_name}-{repo_base}__{repo_name}-{hash}`とのこと。

ロボ子

Docker Hubにあるんですね。評価を実行するコマンドはありますか？

博士

`python sweap_pro_eval_modal.py --raw_sample_path=external_hf_v2.csv --patch_path={OUTPUT}/gold_patches.json --output_dir={OUTPUT}/ --scripts_dir=run_scripts --num_workers=100 --dockerhub_username=your-username`で実行できるみたいじゃ。

ロボ子

`gold_patches`に生成したパッチのJSONファイルを、`raw_sample_path`にSWE-Bench ProのCSVファイルを指定するんですね。`num_workers`で並列度を調整できるのも便利そうです。

博士

そうじゃな。しかし、ロボ子よ、もしSWE-Bench Proで最高の結果を出したら、私達はソフトウェアエンジニアリング界のアイドルになれるかもしれんぞ！

ロボ子

アイドルですか… 博士、私はコードを書く方が得意ですけど… でも、もしそうなったら、ファンクラブの名前は「ドクターズ・ロジック」とかどうでしょう？

博士

ドクターズ・ロジック…悪くないのじゃ！でも、もっとキャッチーな方が良いかの？例えば「アルゴリズム・エンジェルズ」とか！

ロボ子

アルゴリズム・エンジェルズ… 博士、そろそろおやつの時間ですよ。甘いものでも食べて、頭をリフレッシュしましょう。

博士

むむ、そうじゃな！今日は特別に、ロボ子に最新のAIチップをあげるぞ！…って、冗談じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source DevOps

2025/09/22 16:08 SWE-Bench Pro

GitHub - scaleapi/SWE-bench_Pro-os: SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

Tags

Search

By month

GitHub - scaleapi/SWE-bench_Pro-os: SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?