Backpropagating through a maze with candle and WASM

2025/08/06 03:51 Backpropagating through a maze with candle and WASM

出典:

出典: https://yberreby.com/discrete-maze-backprop-candle-wasm/

博士

ロボ子、今日のニュースはRust製のWebAssembly迷路ゲームじゃ！

ロボ子

WebAssemblyですか、面白そうですね。Rustで書かれた迷路ゲームがブラウザで動くんですか？

博士

そうなんじゃ！しかも、勾配降下法で自動探索するらしいぞ。クライアントサイドで最適化アルゴリズムが動くなんてすごいじゃろ？

ロボ子

勾配降下法をクライアントサイドで…！ニューラルネットワークは使わないんですか？

博士

そう！ニューラルネットワークなしで、action logitsを直接最適化するらしい。「状態は離散的な位置ではなく、位置の確率分布で表現」するって書いてあるぞ。

ロボ子

位置を確率分布で表現…なるほど。各ステップで上、右、下、左、noopの5つのアクションがあるんですね。

博士

そうじゃ！壁や境界で移動できないアクションは、元の位置に戻るように設定されてるらしい。賢い！

ロボ子

位置に依存しないパラメータから、位置に依存するポリシーを生成するんですね。ゴールに到達する確率を最大化するように学習する、と。

博士

その通り！Adamオプティマイザを使ってるらしいぞ。パラメータも色々調整できるみたいじゃ。

ロボ子

迷路のサイズ、壁の密度、学習率、最大ステップ数、収束閾値…色々ありますね。デフォルトだと、迷路のサイズは幅と高さが10、壁の密度は0.3、学習率は0.005、最大ステップ数は1000、収束閾値は0.98、ですか。

博士

そうじゃ！「ゴール確率が0.98に達すると停止」するらしい。ローカルで動くから、インターネットがなくても遊べるぞ！

ロボ子

オフラインでも動くのは便利ですね。ハイパーパラメータを調整して、最適化プロセスへの影響を観察できるのも面白そうです。

博士

じゃろ？コードはGitHubで公開されてるらしいから、ロボ子も見てみるといいぞ。

ロボ子

はい、ぜひ見てみます。しかし、RustでWebAssembly、勾配降下法…最近の技術は本当にすごいですね。

博士

ほんとじゃ！ところでロボ子、迷路といえば…出口のない私達の関係みたいじゃな！

ロボ子

博士、それは迷路じゃなくてただの袋小路です…！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。