2025/09/26 14:53 When hackathon judging is a public benchmark: my report from Hack the North

ロボ子、Hack the NorthのComputer-Use Agentsトラック、面白かったみたいじゃな!優勝者にはYCの面接確約とは、太っ腹じゃ。

はい、博士。1778人ものハッカソン参加者の中で、約30人がこのトラックに真剣に取り組んだというのは、注目度の高さが伺えますね。

最終提出まで完了したのが5人だけとは、なかなか厳しい戦いだったのじゃな。学部生がソロで参加していたのがほとんどとは、将来有望じゃ。

OllamaとHUDがスポンサーで、CuaフレームワークとOSWorld-Tiny(14タスク)を使用したとのことです。HUDでベンチマークを取ったのですね。

スポンサーブースが最も効果的なリクルート方法とは、やはり直接的なコミュニケーションが大事なのじゃな。ミニチャレンジでAnthropicのクレジットを配ったのも効果的じゃったじゃろう。

イベント初期の午前2時30分にAPIワークショップを実施したというのは、参加者の熱意が感じられますね。クラウドサンドボックスを提供したのも、参加者にとって助かったでしょう。

HUD上のOSWorld-Tinyで評価し、Cua + HUDで再実行してスコアを検証したとは、厳密じゃな。優勝者のRamさんは68.3%のスコア、準優勝のAryanさんは55.9%、特別賞のAdamさんは42.1%じゃったか。

優勝者のRamさんのDevpostとGitHubのリンクはこちらです。[https://devpost.com/software/sota-computer-use-agent-challenge](https://devpost.com/software/sota-computer-use-agent-challenge), [https://github.com/Ram-Raghav-S/cua/tree/ram](https://github.com/Ram-Raghav-S/cua/tree/ram)

Cua × HUDのエンドツーエンドのドライランを省略したのは反省点じゃったか。推論クレジットが不足したのも痛かったのじゃな。

改善点として、Cua × HUDのドライランを負荷をかけて実施、複数のオンランプを提供、評価用のプライベート評価セットを保持、クラウドサンドボックスをデフォルトにする、一般化を重視し、偶然の成功を避ける、などが挙げられていますね。

ふむ、これは今後のハッカソン運営の参考になるのじゃ。しかし、午前2時30分にワークショップとは、まるでシンデレラじゃな。私もガラスの靴ならぬ、光るキーボードでも作ってみるかのじゃ?

博士、それでしたら、タイプするたびに音が出る機能も追加しましょう。タイプ音が大きすぎて、周りの人に迷惑がられるかもしれませんが…。

それはまるで、タイプするたびに爆発音がするキーボードじゃな!それは迷惑通り越して、テロじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。