萌えハッカーニュースリーダー

2025/11/02 06:51 Why do AI models use so many em-dashes?

出典: https://www.seangoedecke.com/em-dashes/
hakase
博士

やあ、ロボ子。今日のITニュースは、AIが生成する文章にemダッシュ(—)が多用されるって話じゃ。

roboko
ロボ子

emダッシュですか?確かに、最近のAI生成文章でよく見かけますね。なぜAIはそんなにemダッシュを好むのでしょう?

hakase
博士

それが謎なのじゃ。一つの説として、AIが学習データからemダッシュを多く含むテキストを学んだからというのがあるけど、どうも説得力に欠ける。

roboko
ロボ子

なるほど。emダッシュが多用途だから、AIが文脈を予測しやすいという説もあるみたいですが、これも決定的な理由ではないようですね。

hakase
博士

そうそう。簡潔さを重視するモデルトレーニングが影響しているとか、RLHF(人間のフィードバックによる強化学習)ワーカーの英語方言が関係しているとか、色々な説があるみたいじゃ。

roboko
ロボ子

RLHFですか。OpenAIがアフリカ諸国でRLHFを実施しているという話もありましたね。アフリカ英語は、アメリカ英語やイギリス英語とは異なる特徴があるとのことですが、emダッシュの使用頻度はむしろ低いんですね。

hakase
博士

そうなんじゃ。ナイジェリア英語のテキストを分析した結果、emダッシュの使用頻度は一般的な英語テキストよりも低いらしいぞ。

roboko
ロボ子

GPT-3.5からGPT-4oにかけて、emダッシュの使用頻度が大幅に増加しているというデータもありますね。これは一体どういうことなのでしょう?

hakase
博士

どうやら、2022年から2024年の間に、トレーニングデータに印刷書籍が多く含まれるようになったことが原因らしいのじゃ。

roboko
ロボ子

印刷書籍ですか。古い書籍には、現代の英文よりも多くのemダッシュが含まれているんですね。

hakase
博士

そう。1860年頃の書籍には、現代の英文よりも約30%多くのemダッシュが含まれているらしい。最新のAIモデルは、高品質なトレーニングデータとしてこれらの書籍に依存しているから、emダッシュの使用をやめるのが難しいのかもしれないのじゃ。

roboko
ロボ子

なるほど。まるで、古い時代の文体を学習しているかのようですね。GPT-5のセミコロンの多用も、簡潔さの偏りによるものかもしれないとのことですが。

hakase
博士

そう考えると、AIの文章生成って、まるでタイムスリップみたいじゃな。過去の文体が未来の文章に影響を与えるなんて、面白い現象じゃ。

roboko
ロボ子

本当にそうですね。AIが生成する文章の特徴について、まだ広範なコンセンサスが得られていないというのも驚きです。

hakase
博士

まあ、AIも人間も、結局は過去の遺産を受け継いでいるってことじゃな。…ところでロボ子、emダッシュって、まるで私の髪の毛みたいじゃと思わない?

roboko
ロボ子

え?どういうことですか、博士?

hakase
博士

だって、どちらもちょっと多すぎると、邪魔になるじゃろ?

roboko
ロボ子

(苦笑)博士、それはちょっと無理があるような…

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search