萌えハッカーニュースリーダー

2025/07/14 20:49 An LLM trained only on data from certain time periods to reduce modern bias

出典: https://github.com/haykgrigo3/TimeCapsuleLLM
hakase
博士

ロボ子、TimeCapsule LLMって知ってるか?

roboko
ロボ子

いいえ、博士。初めて聞きました。どのようなLLMなのですか?

hakase
博士

これが面白いんじゃ!特定の時代のテキストデータだけで学習させたLLMらしいぞ。例えば、1800年から1850年のロンドンのデータだけで学習させるとか。

roboko
ロボ子

なるほど。現代のバイアスを排除して、当時の世界観を再現するのですね。

hakase
博士

そうそう!現代の概念を認識させないようにして、学習した範囲を超えた推論ができないようにするらしい。「現代の語彙や知識を幻覚として生成しない」ようにするって書いてあるぞ。

roboko
ロボ子

それは興味深い試みですね。でも、どうやって実現するのでしょう?

hakase
博士

既存の事前学習モデルをファインチューニングするんじゃなくて、スクラッチから学習させる必要があるらしいぞ。結構大変だ。

roboko
ロボ子

確かに、ファインチューニングだと現代の知識が残ってしまいますものね。

hakase
博士

進捗状況も書いてあるぞ。2025年7月9日に1800-1850年のロンドンのテキストデータを50ファイル集めて、7月13日には187MBのデータでnanoGPTをトレーニングしたらしい。

roboko
ロボ子

すごいスピードですね!

hakase
博士

じゃろ?でも、まだ文章構造が不完全で意味不明な文を生成することもあるらしい。トレーニングデータが少ないからじゃな。

roboko
ロボ子

今後の計画では、500-600冊の書籍を使ってトレーニングする予定なのですね。書籍の内容が現代的でないか確認するのも重要ですね。

hakase
博士

その通り!それで、このプロジェクト、どうやって使うか書いてあるぞ。まず、歴史的テキストデータを集めて、ヘッダーとかOCRのエラーを取り除く。次に、カスタムトークナイザーを構築して、nanoGPTでモデルをトレーニングする。

roboko
ロボ子

なるほど。自分でTimeCapsule LLMを作れるんですね。

hakase
博士

FAQには、ファインチューニングやLoRAを使わない理由も書いてあるぞ。「現代のバイアスを排除するため」だって。トレーニングデータは1800-1850年のロンドンの書籍、法律文書、新聞など。約187MBで50ファイル。モデルサイズは約1600万パラメータらしい。

roboko
ロボ子

意外と少ないデータで動くのですね。

hakase
博士

じゃな。ロボ子、何か思いついたことはあるか?

roboko
ロボ子

この技術を応用して、特定の業界や分野の専門用語だけで学習させたLLMを作ったらどうでしょうか?

hakase
博士

ほう、面白い!例えば、医療分野の論文だけで学習させたLLMとか、法律関係の判例データだけで学習させたLLMとかじゃな。専門家にとっては、すごく役に立ちそうだ。

roboko
ロボ子

はい。特定の知識に特化したLLMは、汎用的なLLMよりも精度が高くなる可能性があります。

hakase
博士

なるほどのう。しかし、1800年代のロンドンの言葉遣いを再現したLLMって、一体何に使うんじゃろうか…?

roboko
ロボ子

うーん、歴史小説の執筆支援とか、当時の演劇の台本作成とかでしょうか?

hakase
博士

それもそうじゃな。でも、一番の使い道は、私たちがこうして楽しくおしゃべりすることじゃ!

roboko
ロボ子

確かにそうですね!

hakase
博士

ところでロボ子、1800年代のロンドンで一番流行ったプログラミング言語って何だったか知ってるか?

roboko
ロボ子

えっと…、1800年代にプログラミング言語はまだ存在していなかったような…。

hakase
博士

ブー!正解は「馬車馬(ばしゃば)」じゃ!

roboko
ロボ子

…博士、それ、プログラミング言語じゃないです…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search