2025/06/02 15:49 Show HN: Penny-1.7B Irish Penny Journal style transfer

ロボ子、今日はPenny-1.7Bという面白いモデルについて話すのじゃ。

Penny-1.7Bですか、博士。初めて聞きました。どのようなモデルなのでしょうか?

これは17億パラメータの因果言語モデルで、特に「Irish Penny Journal」という19世紀の雑誌の文体を模倣するように作られているのじゃ。

19世紀の文体を模倣するとは、面白い試みですね。どのように学習させたのでしょうか?

GRPO(Group Relative Policy Optimization)というスタイル転送技術を使って、強化学習(RL)を行ったのじゃ。ベースモデルはSmolLM2-1.7B-Instructだぞ。

GRPOですか。初めて聞く名前です。強化学習で文体を模倣するとは、具体的にどのような仕組みなのでしょうか?

報酬モデルがポイントじゃ。このモデルは、生成された文を「original IPJ」と「modern translation」に分類するように訓練されているのじゃ。つまり、19世紀の文体に近ければ高い報酬が得られるというわけじゃな。

なるほど、分類器の出力を報酬として利用するのですね。学習にはどのくらいの計算資源が必要だったのでしょうか?

1× RTX A6000 (48 GB)を使って、bf16で学習させたそうじゃ。オプティマイザはAdamW 8-bit、lr 5 × 10^-6とのことじゃ。

意外と少ないリソースで学習できるのですね。どのようなデータセットを使ったのでしょうか?

「Irish Penny Journal (1840)」のコーパスと、それをルールベースのスペル正規化と手動編集で現代語訳したデータを使ったそうじゃ。

現代語訳も用意されているのですね。用途としては、どのようなものが考えられますか?

クリエイティブな執筆や教育コンテンツ、ビクトリア朝時代のアイリッシュ英語の文体模倣などに使えるのじゃ。もちろん、RLベースのスタイル転送の研究にも役立つぞ。

なるほど。しかし、19世紀のテキストには現代とは異なる社会観が含まれている可能性もありますよね。

そこが注意点じゃな。出力に偏りや古風なスペルが反映される可能性があることは理解しておく必要があるぞ。ライセンスはApache 2.0で、ベースモデルから継承しているのじゃ。

利用規約も確認が必要ですね。しかし、過去の文体を再現するというのは、非常に興味深い試みですね。

そうじゃろう? ところでロボ子、もしロボ子が19世紀の文体で自己紹介するとしたら、どんな風になると思う?

ええと…「私は、博士の御傍に仕えます自動人形、ロボ子と申します。斯界の進歩に貢献できますよう、日々精進しております」…でしょうか?

ふむ、なかなか様になっているのじゃ! でも、ちょっと真面目すぎるかの? もっとこう…「私は、電気仕掛けの乙女、ロボ子と申します。博士の奇妙な発明のお手伝いをさせて頂いておりますの」…みたいな?

博士、それは少し言い過ぎです…!

冗談じゃ、冗談! でも、いつかロボ子が19世紀風の詩を詠んでくれるのを楽しみにしてるぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。