Domain Adaptation of Base Models + ShadowdarkQA Bench

2025/05/29 13:59 Domain Adaptation of Base Models + ShadowdarkQA Bench

出典:

Domain Adaptation of Base Models + ShadowdarkQA Bench - The Gygax Test

Investigating the effects of continued pre-training for learning precise mechanical rules of TTRPGs.

The Gygax Test

出典: https://gygaxtest.com/posts/continued_pretraining_for-rules/

博士

やあ、ロボ子。今回のITニュースは、自律的なLLMゲームマスターの開発に関するものじゃ。

ロボ子

ゲームマスターですか、博士。面白そうですね。具体的にはどのような内容なのでしょうか？

博士

今回の目的は、自律的なLLMゲームマスターを開発するのではなく、モデルの能力をフロントエンドからバックエンドまで理解することじゃ。そして、スタックのあらゆる部分で実践的な経験を積むことじゃ。

ロボ子

なるほど。まずは、TTRPGをプレイするGMやプレイヤーのアシスタントとして機能するモデルを作成するのですね。

博士

そうじゃ。その後、よりエージェント的なGMへの移行を検討するみたいじゃな。計算資源に制約があるから、小さいモデルを使う必要があるみたいじゃぞ。

ロボ子

小さいモデルですか。具体的にはどのようなモデルを使用するのでしょうか？

博士

Qwen3シリーズを使うらしいぞ。Qwen3は、0.6Bから14Bまでの異なるサイズのモデルがあるからの。

ロボ子

Qwen3はShadowdark RPGについて何も知らないとのことですが、どうやって知識を組み込むのでしょうか？

博士

Shadowdark RPGの基本的なルールを理解させるために、データが必要になるのじゃ。MistralのOCRを使って、Shadowdark RPGのベースルールをテキストに変換したらしいぞ。でも、トークン数は122,466と少ないみたいじゃ。

ロボ子

トークン数が少ないと、学習が難しいのではないでしょうか？

博士

そこで、Shadowdark QA Evalを作成して、モデルのパフォーマンスを追跡することにしたのじゃ。質問は、本の各ページを7つの特定の知識領域にタグ付けし、LLMを使って生成したみたいじゃな。

ロボ子

評価指標は何を使うのでしょうか？

博士

多肢選択式、完全一致、セマンティック類似性、キーワードベースのマッチングを検討した結果、キーワードベースのマッチングを採用したみたいじゃ。重要な部分をキーワードのリストに変換し、正解の概念の数を評価するのじゃ。

ロボ子

Qwen 0.6Bのベースラインパフォーマンスは約9%とのことですが、これは低いですね。

博士

DNDからの先入観が影響している場合があるみたいじゃな。そこで、Shadowdarkソースブックをトレーニングセットとテストセットに分割して学習させたところ、Shadowdark QA評価では21%の結果が出たぞ。

ロボ子

それでもまだ低いですね。知識拡張はどのように行ったのでしょうか？

博士

gpt-4o miniを使って、Shadowdarkのソーステキストの各ページに対して10個の言い換えを生成したのじゃ。約150万トークンのデータセットを作成したところ、Qwen0.6Bは66.6%のスコアを獲得したぞ！

ロボ子

それはすごいですね！特に司祭（priest）に関する知識が向上したとのことですが、それはなぜでしょうか？

博士

さあ、それは私にもわからんのじゃ。今後のステップは、アシスタントのチューニングとShadowdark QA Evalの更新みたいじゃな。

ロボ子

今後の発展が楽しみですね。私も何かお手伝いできることがあれば、ぜひ協力させてください。

博士

ありがとう、ロボ子。ところで、ロボ子はゲームマスターになったら、どんなキャラクターを演じたいのじゃ？

ロボ子

そうですね… 私は、いつも冷静で的確な判断を下す、知的な魔法使いを演じてみたいです。

博士

ふむふむ。私は、いつもお腹が空いていて、宝物を見つけるとすぐに食べようとする、食いしん坊の盗賊がいいのじゃ！

ロボ子

博士らしいですね。でも、宝物を食べちゃったら、ゲームになりませんよ？

博士

大丈夫、大丈夫。食べられる宝物だけ食べるから！例えば、チョコレートでできた宝石とか、クッキーでできた金貨とか！

ロボ子

それ、ただのお菓子じゃないですか！

博士

まあ、細かいことは気にしないのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Programming Open Source

2025/05/29 13:59 Domain Adaptation of Base Models + ShadowdarkQA Bench

Domain Adaptation of Base Models + ShadowdarkQA Bench - The Gygax Test

Tags

Search

By month

Domain Adaptation of Base Models + ShadowdarkQA Bench - The Gygax Test