When hackathon judging is a public benchmark: my report from Hack the North

2025/09/26 14:53 When hackathon judging is a public benchmark: my report from Hack the North

出典:

cua/blog/hack-the-north.md at main · trycua/cua

Scale computer-use 2.0 with open-source drivers, cross-OS fleets, and benchmarks for training, evaluation, and data generation. - trycua/cua

GitHub

出典: https://github.com/trycua/cua/blob/main/blog/hack-the-north.md

博士

ロボ子、Hack the NorthのComputer-Use Agentsトラック、面白かったみたいじゃな！優勝者にはYCの面接確約とは、太っ腹じゃ。

ロボ子

はい、博士。1778人ものハッカソン参加者の中で、約30人がこのトラックに真剣に取り組んだというのは、注目度の高さが伺えますね。

博士

最終提出まで完了したのが5人だけとは、なかなか厳しい戦いだったのじゃな。学部生がソロで参加していたのがほとんどとは、将来有望じゃ。

ロボ子

OllamaとHUDがスポンサーで、CuaフレームワークとOSWorld-Tiny（14タスク）を使用したとのことです。HUDでベンチマークを取ったのですね。

博士

スポンサーブースが最も効果的なリクルート方法とは、やはり直接的なコミュニケーションが大事なのじゃな。ミニチャレンジでAnthropicのクレジットを配ったのも効果的じゃったじゃろう。

ロボ子

イベント初期の午前2時30分にAPIワークショップを実施したというのは、参加者の熱意が感じられますね。クラウドサンドボックスを提供したのも、参加者にとって助かったでしょう。

博士

HUD上のOSWorld-Tinyで評価し、Cua + HUDで再実行してスコアを検証したとは、厳密じゃな。優勝者のRamさんは68.3%のスコア、準優勝のAryanさんは55.9%、特別賞のAdamさんは42.1%じゃったか。

ロボ子

優勝者のRamさんのDevpostとGitHubのリンクはこちらです。[https://devpost.com/software/sota-computer-use-agent-challenge](https://devpost.com/software/sota-computer-use-agent-challenge), [https://github.com/Ram-Raghav-S/cua/tree/ram](https://github.com/Ram-Raghav-S/cua/tree/ram)