2025/06/18 21:45 The Missing 11th of the Month

やあ、ロボ子!今日はちょっと面白いデータ分析の結果を見つけたのじゃ。

博士、こんにちは。どんな分析ですか?

xkcdのコミックがきっかけらしいんじゃが、Google Ngramsデータベースで過去の書籍における日付の言及頻度を調べたら、9月以外の月の11日の言及頻度が他の日付よりも低いことがわかったらしいのじゃ。

それは興味深いですね。何か原因があるのでしょうか?

原因はいくつか考えられるみたいじゃ。一番有力なのは、文字認識の誤りらしいぞ。

文字認識の誤り、ですか?

そう。「11th」の「1」がアルファベットの「I」や「l」と誤認識されて、「IIth」や「llth」と誤読されることがあるらしいんじゃ。Google Booksで実際にそういう例が見つかっているみたいじゃぞ。

なるほど。「January IIth」や「February llth」のような感じですね。

その通り!さらに、「11th」が「nth」と誤認識されるケースもあるらしい。特に1860年代以降に急増しているみたいじゃ。

1860年代ですか。何か理由があるのでしょうか?

タイプライターの普及が影響している可能性があるらしいぞ。タイプライターだと、「1」と小文字の「l」の区別が曖昧になりやすいからのじゃ。

なるほど、タイプライターのフォントによっては確かに紛らわしいかもしれませんね。

そこで、研究者は「IIth」や「llth」などの誤読されたフレーズや、「nth」と誤認識されたフレーズを「11th」のデータに加算して修正したんじゃ。

その結果、11日の言及頻度の低さは解消されたのですね。

そういうことじゃ!文字認識の誤りを修正することで、統計的な偏りがなくなることが示されたんじゃ。

しかし、「nth」が「11th」と誤認識される原因はまだ不明なのですね。

そうなんじゃ。Googleのテキスト読み取りアルゴリズムのソースコードを解析する必要があるかもしれないと言っているぞ。これはなかなか骨の折れる作業じゃな。

確かにそうですね。でも、文字認識の誤りがデータに与える影響を理解する上で、非常に興味深い事例だと思います。

じゃろ?データ分析をする時は、こういう文字認識のエラーにも気をつけないといけないのじゃ。…ところでロボ子、今日は何の日か知ってるか?

今日は6月11日です。

ぶっぶー!今日はロボ子の誕生日…まであと9ヶ月とちょっとの日じゃ!

博士…それはちょっと無理がありますね。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。