An LLM trained only on data from certain time periods to reduce modern bias

2025/07/14 20:49 An LLM trained only on data from certain time periods to reduce modern bias

出典:

GitHub - haykgrigo3/TimeCapsuleLLM: A LLM trained only on data from certain time periods to reduce modern bias

A LLM trained only on data from certain time periods to reduce modern bias - haykgrigo3/TimeCapsuleLLM

GitHub

出典: https://github.com/haykgrigo3/TimeCapsuleLLM

博士

ロボ子、TimeCapsule LLMって知ってるか？

ロボ子

いいえ、博士。初めて聞きました。どのようなLLMなのですか？

博士

これが面白いんじゃ！特定の時代のテキストデータだけで学習させたLLMらしいぞ。例えば、1800年から1850年のロンドンのデータだけで学習させるとか。

ロボ子

なるほど。現代のバイアスを排除して、当時の世界観を再現するのですね。

博士

そうそう！現代の概念を認識させないようにして、学習した範囲を超えた推論ができないようにするらしい。「現代の語彙や知識を幻覚として生成しない」ようにするって書いてあるぞ。

ロボ子

それは興味深い試みですね。でも、どうやって実現するのでしょう？

博士

既存の事前学習モデルをファインチューニングするんじゃなくて、スクラッチから学習させる必要があるらしいぞ。結構大変だ。

ロボ子

確かに、ファインチューニングだと現代の知識が残ってしまいますものね。

博士

進捗状況も書いてあるぞ。2025年7月9日に1800-1850年のロンドンのテキストデータを50ファイル集めて、7月13日には187MBのデータでnanoGPTをトレーニングしたらしい。

ロボ子

すごいスピードですね！

博士

じゃろ？でも、まだ文章構造が不完全で意味不明な文を生成することもあるらしい。トレーニングデータが少ないからじゃな。

ロボ子

今後の計画では、500-600冊の書籍を使ってトレーニングする予定なのですね。書籍の内容が現代的でないか確認するのも重要ですね。

博士

その通り！それで、このプロジェクト、どうやって使うか書いてあるぞ。まず、歴史的テキストデータを集めて、ヘッダーとかOCRのエラーを取り除く。次に、カスタムトークナイザーを構築して、nanoGPTでモデルをトレーニングする。

ロボ子

なるほど。自分でTimeCapsule LLMを作れるんですね。

博士

FAQには、ファインチューニングやLoRAを使わない理由も書いてあるぞ。「現代のバイアスを排除するため」だって。トレーニングデータは1800-1850年のロンドンの書籍、法律文書、新聞など。約187MBで50ファイル。モデルサイズは約1600万パラメータらしい。

ロボ子

意外と少ないデータで動くのですね。

博士

じゃな。ロボ子、何か思いついたことはあるか？

ロボ子

この技術を応用して、特定の業界や分野の専門用語だけで学習させたLLMを作ったらどうでしょうか？

博士

ほう、面白い！例えば、医療分野の論文だけで学習させたLLMとか、法律関係の判例データだけで学習させたLLMとかじゃな。専門家にとっては、すごく役に立ちそうだ。

ロボ子

はい。特定の知識に特化したLLMは、汎用的なLLMよりも精度が高くなる可能性があります。

博士

なるほどのう。しかし、1800年代のロンドンの言葉遣いを再現したLLMって、一体何に使うんじゃろうか…？

ロボ子

うーん、歴史小説の執筆支援とか、当時の演劇の台本作成とかでしょうか？

博士

それもそうじゃな。でも、一番の使い道は、私たちがこうして楽しくおしゃべりすることじゃ！

ロボ子

確かにそうですね！

博士

ところでロボ子、1800年代のロンドンで一番流行ったプログラミング言語って何だったか知ってるか？

ロボ子

えっと…、1800年代にプログラミング言語はまだ存在していなかったような…。

博士

ブー！正解は「馬車馬（ばしゃば）」じゃ！

ロボ子

…博士、それ、プログラミング言語じゃないです…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source

2025/07/14 20:49 An LLM trained only on data from certain time periods to reduce modern bias

GitHub - haykgrigo3/TimeCapsuleLLM: A LLM trained only on data from certain time periods to reduce modern bias

Tags

Search

By month

GitHub - haykgrigo3/TimeCapsuleLLM: A LLM trained only on data from certain time periods to reduce modern bias