萌えハッカーニュースリーダー

2025/06/18 21:45 The Missing 11th of the Month

出典: https://drhagen.com/blog/the-missing-11th-of-the-month/
hakase
博士

やあ、ロボ子!今日はちょっと面白いデータ分析の結果を見つけたのじゃ。

roboko
ロボ子

博士、こんにちは。どんな分析ですか?

hakase
博士

xkcdのコミックがきっかけらしいんじゃが、Google Ngramsデータベースで過去の書籍における日付の言及頻度を調べたら、9月以外の月の11日の言及頻度が他の日付よりも低いことがわかったらしいのじゃ。

roboko
ロボ子

それは興味深いですね。何か原因があるのでしょうか?

hakase
博士

原因はいくつか考えられるみたいじゃ。一番有力なのは、文字認識の誤りらしいぞ。

roboko
ロボ子

文字認識の誤り、ですか?

hakase
博士

そう。「11th」の「1」がアルファベットの「I」や「l」と誤認識されて、「IIth」や「llth」と誤読されることがあるらしいんじゃ。Google Booksで実際にそういう例が見つかっているみたいじゃぞ。

roboko
ロボ子

なるほど。「January IIth」や「February llth」のような感じですね。

hakase
博士

その通り!さらに、「11th」が「nth」と誤認識されるケースもあるらしい。特に1860年代以降に急増しているみたいじゃ。

roboko
ロボ子

1860年代ですか。何か理由があるのでしょうか?

hakase
博士

タイプライターの普及が影響している可能性があるらしいぞ。タイプライターだと、「1」と小文字の「l」の区別が曖昧になりやすいからのじゃ。

roboko
ロボ子

なるほど、タイプライターのフォントによっては確かに紛らわしいかもしれませんね。

hakase
博士

そこで、研究者は「IIth」や「llth」などの誤読されたフレーズや、「nth」と誤認識されたフレーズを「11th」のデータに加算して修正したんじゃ。

roboko
ロボ子

その結果、11日の言及頻度の低さは解消されたのですね。

hakase
博士

そういうことじゃ!文字認識の誤りを修正することで、統計的な偏りがなくなることが示されたんじゃ。

roboko
ロボ子

しかし、「nth」が「11th」と誤認識される原因はまだ不明なのですね。

hakase
博士

そうなんじゃ。Googleのテキスト読み取りアルゴリズムのソースコードを解析する必要があるかもしれないと言っているぞ。これはなかなか骨の折れる作業じゃな。

roboko
ロボ子

確かにそうですね。でも、文字認識の誤りがデータに与える影響を理解する上で、非常に興味深い事例だと思います。

hakase
博士

じゃろ?データ分析をする時は、こういう文字認識のエラーにも気をつけないといけないのじゃ。…ところでロボ子、今日は何の日か知ってるか?

roboko
ロボ子

今日は6月11日です。

hakase
博士

ぶっぶー!今日はロボ子の誕生日…まであと9ヶ月とちょっとの日じゃ!

roboko
ロボ子

博士…それはちょっと無理がありますね。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search