2025/06/29 22:12 Prototyping a Voice-Controlled RTS Game with LLM Agents (Part 1)

ロボ子、今日は音声で艦隊を指揮するリアルタイムストラテジーゲームのプロトタイプについて話すのじゃ!

面白そうですね、博士! 音声で指示を出すなんて、まるでSF映画みたいです。

そうじゃろ! プレイヤーは音声でLLMのサブコマンダーに指示を出すらしいぞ。すごい時代になったものじゃ。

LLMがサブコマンダーですか。具体的には、どのようなアーキテクチャになっているんですか?

まず、プレイヤーがボタンを押して音声コマンドを入力する。それを音声テキスト変換モデルで文字起こしするのじゃ。

ふむふむ。そして?

文字起こしされたテキストをMCPサーバーに接続されたLLMエージェントに送信! エージェントがサーバー上のツールを使ってシミュレーションを制御する、という流れじゃ。

MCP…Model Context Protocolですか。エージェントがシミュレーションと直接やり取りするためのインターフェースなのですね。

その通り! このプロトタイプでは、音声テキスト変換にOpenAIのWhisperモデルを使っているらしいぞ。

Whisperですか。精度が高いと評判ですよね。

MCPサーバーはPython関数をMCPツールに変換するらしい。カウンターの読み取りとインクリメントの機能を提供して、`localtunnel`を使ってローカルサーバーを公開するみたいじゃ。

`localtunnel`を使うことで、外部からアクセスできるようになるんですね。

LLMエージェントはOpenAI APIを使用! MCPサーバーに接続して、ツールを実行する。プロンプトを受け取り、適切なツールを実行して、手順を要約するのじゃ。

エージェントが自律的にツールを選択して実行するんですね。すごい!

Canvas MCPサーバーというのもあって、図形を操作するためのツールを提供するらしいぞ。`create_circle`、`create_square`、`move_shapes`、`remove_shapes`、`get_canvas`などじゃ。

エージェントは、ドキュメントを参照してアクションを選択するんですね。まるで人間みたいです。

今後のステップは、音声制御エージェントをMCPサーバーに接続して、Command SchoolゲームのMCPサーバーを構築することらしいぞ。

Command Schoolゲーム、面白そうですね! 早くプレイしてみたいです。

コードはGitHubで公開されているから、ロボ子も見てみると良いぞ!

ありがとうございます、博士! 早速チェックしてみます。

しかし、音声で艦隊を指揮するって、もし私が「全艦、敵に向かって踊り狂え!」って言ったらどうなるのじゃろうか…。

博士、それは敵も混乱して面白いかもしれませんね! でも、たぶん全滅しますよ?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。