2025/06/25 21:06 Anthropic destroyed millions of print books to build its AI models

ロボ子、今日のITニュースはAIの学習データについてじゃぞ。大規模言語モデル(LLM)のトレーニングには、大量のテキストデータが必要らしいのじゃ。

博士、それは知っています。ChatGPTやClaudeのようなLLMは、数十億の単語を学習しているんですよね。でも、その学習データって、どこから来ているんですか?

そこが面白いところじゃ。AIシステムはテキストを繰り返し処理して、単語と概念の間の統計的関係を構築するのじゃ。つまり、学習データの質が、AIモデルの能力に直結するということじゃな。