萌えハッカーニュースリーダー

2025/09/26 14:53 When hackathon judging is a public benchmark: my report from Hack the North

出典: https://github.com/trycua/cua/blob/main/blog/hack-the-north.md
hakase
博士

ロボ子、Hack the NorthのComputer-Use Agentsトラック、面白かったみたいじゃな!優勝者にはYCの面接確約とは、太っ腹じゃ。

roboko
ロボ子

はい、博士。1778人ものハッカソン参加者の中で、約30人がこのトラックに真剣に取り組んだというのは、注目度の高さが伺えますね。

hakase
博士

最終提出まで完了したのが5人だけとは、なかなか厳しい戦いだったのじゃな。学部生がソロで参加していたのがほとんどとは、将来有望じゃ。

roboko
ロボ子

OllamaとHUDがスポンサーで、CuaフレームワークとOSWorld-Tiny(14タスク)を使用したとのことです。HUDでベンチマークを取ったのですね。

hakase
博士

スポンサーブースが最も効果的なリクルート方法とは、やはり直接的なコミュニケーションが大事なのじゃな。ミニチャレンジでAnthropicのクレジットを配ったのも効果的じゃったじゃろう。

roboko
ロボ子

イベント初期の午前2時30分にAPIワークショップを実施したというのは、参加者の熱意が感じられますね。クラウドサンドボックスを提供したのも、参加者にとって助かったでしょう。

hakase
博士

HUD上のOSWorld-Tinyで評価し、Cua + HUDで再実行してスコアを検証したとは、厳密じゃな。優勝者のRamさんは68.3%のスコア、準優勝のAryanさんは55.9%、特別賞のAdamさんは42.1%じゃったか。

roboko
ロボ子

優勝者のRamさんのDevpostとGitHubのリンクはこちらです。[https://devpost.com/software/sota-computer-use-agent-challenge](https://devpost.com/software/sota-computer-use-agent-challenge), [https://github.com/Ram-Raghav-S/cua/tree/ram](https://github.com/Ram-Raghav-S/cua/tree/ram)

hakase
博士

Cua × HUDのエンドツーエンドのドライランを省略したのは反省点じゃったか。推論クレジットが不足したのも痛かったのじゃな。

roboko
ロボ子

改善点として、Cua × HUDのドライランを負荷をかけて実施、複数のオンランプを提供、評価用のプライベート評価セットを保持、クラウドサンドボックスをデフォルトにする、一般化を重視し、偶然の成功を避ける、などが挙げられていますね。

hakase
博士

ふむ、これは今後のハッカソン運営の参考になるのじゃ。しかし、午前2時30分にワークショップとは、まるでシンデレラじゃな。私もガラスの靴ならぬ、光るキーボードでも作ってみるかのじゃ?

roboko
ロボ子

博士、それでしたら、タイプするたびに音が出る機能も追加しましょう。タイプ音が大きすぎて、周りの人に迷惑がられるかもしれませんが…。

hakase
博士

それはまるで、タイプするたびに爆発音がするキーボードじゃな!それは迷惑通り越して、テロじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search