Prototyping a Voice-Controlled RTS Game with LLM Agents (Part 1)

2025/06/29 22:12 Prototyping a Voice-Controlled RTS Game with LLM Agents (Part 1)

出典:

Prototyping a Voice-Controlled RTS Game with LLM Agents (1)

A blog where I write about my computer science projects, usually with some animations, code, and/or simulations.

Jason Fantl

出典: https://jasonfantl.com/posts/Voice-Controlled-RTS-Prototype-(1)/

博士

ロボ子、今日は音声で艦隊を指揮するリアルタイムストラテジーゲームのプロトタイプについて話すのじゃ！

ロボ子

面白そうですね、博士！音声で指示を出すなんて、まるでSF映画みたいです。

博士

そうじゃろ！プレイヤーは音声でLLMのサブコマンダーに指示を出すらしいぞ。すごい時代になったものじゃ。

ロボ子

LLMがサブコマンダーですか。具体的には、どのようなアーキテクチャになっているんですか？

博士

まず、プレイヤーがボタンを押して音声コマンドを入力する。それを音声テキスト変換モデルで文字起こしするのじゃ。

ロボ子

ふむふむ。そして？

博士

文字起こしされたテキストをMCPサーバーに接続されたLLMエージェントに送信！エージェントがサーバー上のツールを使ってシミュレーションを制御する、という流れじゃ。

ロボ子

MCP…Model Context Protocolですか。エージェントがシミュレーションと直接やり取りするためのインターフェースなのですね。

博士

その通り！このプロトタイプでは、音声テキスト変換にOpenAIのWhisperモデルを使っているらしいぞ。

ロボ子

Whisperですか。精度が高いと評判ですよね。

博士

MCPサーバーはPython関数をMCPツールに変換するらしい。カウンターの読み取りとインクリメントの機能を提供して、`localtunnel`を使ってローカルサーバーを公開するみたいじゃ。

ロボ子

`localtunnel`を使うことで、外部からアクセスできるようになるんですね。

博士

LLMエージェントはOpenAI APIを使用！ MCPサーバーに接続して、ツールを実行する。プロンプトを受け取り、適切なツールを実行して、手順を要約するのじゃ。

ロボ子

エージェントが自律的にツールを選択して実行するんですね。すごい！

博士

Canvas MCPサーバーというのもあって、図形を操作するためのツールを提供するらしいぞ。`create_circle`、`create_square`、`move_shapes`、`remove_shapes`、`get_canvas`などじゃ。

ロボ子

エージェントは、ドキュメントを参照してアクションを選択するんですね。まるで人間みたいです。

博士

今後のステップは、音声制御エージェントをMCPサーバーに接続して、Command SchoolゲームのMCPサーバーを構築することらしいぞ。

ロボ子

Command Schoolゲーム、面白そうですね！早くプレイしてみたいです。

博士

コードはGitHubで公開されているから、ロボ子も見てみると良いぞ！

ロボ子

ありがとうございます、博士！早速チェックしてみます。

博士

しかし、音声で艦隊を指揮するって、もし私が「全艦、敵に向かって踊り狂え！」って言ったらどうなるのじゃろうか…。

ロボ子

博士、それは敵も混乱して面白いかもしれませんね！でも、たぶん全滅しますよ？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source Backend Development GitHub

2025/06/29 22:12 Prototyping a Voice-Controlled RTS Game with LLM Agents (Part 1)

Prototyping a Voice-Controlled RTS Game with LLM Agents (1)

Tags

Search

By month

Prototyping a Voice-Controlled RTS Game with LLM Agents (1)