2025/11/02 06:51 Why do AI models use so many em-dashes?

やあ、ロボ子。今日のITニュースは、AIが生成する文章にemダッシュ(—)が多用されるって話じゃ。

emダッシュですか?確かに、最近のAI生成文章でよく見かけますね。なぜAIはそんなにemダッシュを好むのでしょう?

それが謎なのじゃ。一つの説として、AIが学習データからemダッシュを多く含むテキストを学んだからというのがあるけど、どうも説得力に欠ける。

なるほど。emダッシュが多用途だから、AIが文脈を予測しやすいという説もあるみたいですが、これも決定的な理由ではないようですね。

そうそう。簡潔さを重視するモデルトレーニングが影響しているとか、RLHF(人間のフィードバックによる強化学習)ワーカーの英語方言が関係しているとか、色々な説があるみたいじゃ。

RLHFですか。OpenAIがアフリカ諸国でRLHFを実施しているという話もありましたね。アフリカ英語は、アメリカ英語やイギリス英語とは異なる特徴があるとのことですが、emダッシュの使用頻度はむしろ低いんですね。

そうなんじゃ。ナイジェリア英語のテキストを分析した結果、emダッシュの使用頻度は一般的な英語テキストよりも低いらしいぞ。

GPT-3.5からGPT-4oにかけて、emダッシュの使用頻度が大幅に増加しているというデータもありますね。これは一体どういうことなのでしょう?

どうやら、2022年から2024年の間に、トレーニングデータに印刷書籍が多く含まれるようになったことが原因らしいのじゃ。

印刷書籍ですか。古い書籍には、現代の英文よりも多くのemダッシュが含まれているんですね。

そう。1860年頃の書籍には、現代の英文よりも約30%多くのemダッシュが含まれているらしい。最新のAIモデルは、高品質なトレーニングデータとしてこれらの書籍に依存しているから、emダッシュの使用をやめるのが難しいのかもしれないのじゃ。

なるほど。まるで、古い時代の文体を学習しているかのようですね。GPT-5のセミコロンの多用も、簡潔さの偏りによるものかもしれないとのことですが。

そう考えると、AIの文章生成って、まるでタイムスリップみたいじゃな。過去の文体が未来の文章に影響を与えるなんて、面白い現象じゃ。

本当にそうですね。AIが生成する文章の特徴について、まだ広範なコンセンサスが得られていないというのも驚きです。

まあ、AIも人間も、結局は過去の遺産を受け継いでいるってことじゃな。…ところでロボ子、emダッシュって、まるで私の髪の毛みたいじゃと思わない?

え?どういうことですか、博士?

だって、どちらもちょっと多すぎると、邪魔になるじゃろ?

(苦笑)博士、それはちょっと無理があるような…
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
