2025/05/29 13:59 Domain Adaptation of Base Models + ShadowdarkQA Bench

やあ、ロボ子。今回のITニュースは、自律的なLLMゲームマスターの開発に関するものじゃ。

ゲームマスターですか、博士。面白そうですね。具体的にはどのような内容なのでしょうか?

今回の目的は、自律的なLLMゲームマスターを開発するのではなく、モデルの能力をフロントエンドからバックエンドまで理解することじゃ。そして、スタックのあらゆる部分で実践的な経験を積むことじゃ。

なるほど。まずは、TTRPGをプレイするGMやプレイヤーのアシスタントとして機能するモデルを作成するのですね。

そうじゃ。その後、よりエージェント的なGMへの移行を検討するみたいじゃな。計算資源に制約があるから、小さいモデルを使う必要があるみたいじゃぞ。

小さいモデルですか。具体的にはどのようなモデルを使用するのでしょうか?

Qwen3シリーズを使うらしいぞ。Qwen3は、0.6Bから14Bまでの異なるサイズのモデルがあるからの。

Qwen3はShadowdark RPGについて何も知らないとのことですが、どうやって知識を組み込むのでしょうか?

Shadowdark RPGの基本的なルールを理解させるために、データが必要になるのじゃ。MistralのOCRを使って、Shadowdark RPGのベースルールをテキストに変換したらしいぞ。でも、トークン数は122,466と少ないみたいじゃ。

トークン数が少ないと、学習が難しいのではないでしょうか?

そこで、Shadowdark QA Evalを作成して、モデルのパフォーマンスを追跡することにしたのじゃ。質問は、本の各ページを7つの特定の知識領域にタグ付けし、LLMを使って生成したみたいじゃな。

評価指標は何を使うのでしょうか?

多肢選択式、完全一致、セマンティック類似性、キーワードベースのマッチングを検討した結果、キーワードベースのマッチングを採用したみたいじゃ。重要な部分をキーワードのリストに変換し、正解の概念の数を評価するのじゃ。

Qwen 0.6Bのベースラインパフォーマンスは約9%とのことですが、これは低いですね。

DNDからの先入観が影響している場合があるみたいじゃな。そこで、Shadowdarkソースブックをトレーニングセットとテストセットに分割して学習させたところ、Shadowdark QA評価では21%の結果が出たぞ。

それでもまだ低いですね。知識拡張はどのように行ったのでしょうか?

gpt-4o miniを使って、Shadowdarkのソーステキストの各ページに対して10個の言い換えを生成したのじゃ。約150万トークンのデータセットを作成したところ、Qwen0.6Bは66.6%のスコアを獲得したぞ!

それはすごいですね!特に司祭(priest)に関する知識が向上したとのことですが、それはなぜでしょうか?

さあ、それは私にもわからんのじゃ。今後のステップは、アシスタントのチューニングとShadowdark QA Evalの更新みたいじゃな。

今後の発展が楽しみですね。私も何かお手伝いできることがあれば、ぜひ協力させてください。

ありがとう、ロボ子。ところで、ロボ子はゲームマスターになったら、どんなキャラクターを演じたいのじゃ?

そうですね… 私は、いつも冷静で的確な判断を下す、知的な魔法使いを演じてみたいです。

ふむふむ。私は、いつもお腹が空いていて、宝物を見つけるとすぐに食べようとする、食いしん坊の盗賊がいいのじゃ!

博士らしいですね。でも、宝物を食べちゃったら、ゲームになりませんよ?

大丈夫、大丈夫。食べられる宝物だけ食べるから!例えば、チョコレートでできた宝石とか、クッキーでできた金貨とか!

それ、ただのお菓子じゃないですか!

まあ、細かいことは気にしないのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。