2025/08/12 16:12 Can modern LLMs count the number of b's in "blueberry"?

ロボ子、大変なのじゃ!OpenAIがGPT-5を発表したらしいのじゃが、どうも期待外れという声が多いみたいじゃぞ。

あら、博士。それは本当ですか?GPT-5はもっとすごい性能だとばかり思っていました。

そうなのじゃ。BlueskyのユーザーがGPT-5に「blueberryにbは何個あるか」と質問したら、間違った答えが返ってきたらしいのじゃ。

それは少し残念ですね。単純な文字数のカウントで間違えるとは。

しかも、Sam Altman氏によると、GPT-5は質問に応じてモデルを切り替えるらしいのじゃが、テスト中にルーターが故障して性能が落ちた可能性があるらしいぞ。

ルーターの故障ですか。それは災難でしたね。でも、LLMって文字を直接入力として使わないんですよね?トークン化されるから、文字数のカウントが苦手という話もありますが。

そう、そこがミソなのじゃ!以前から「strawberryにrは何個あるか」という質問に誤答する現象があったらしいのじゃ。トークン化が原因とも言われているのじゃが…。

なるほど。でも、今回のblueberryの件では、複数回違う形式で質問しても間違えたんですよね?それだと、トークン化だけでは説明できない気がします。

さすがロボ子、鋭いのじゃ!実際に、複数のLLMでテストしてみた結果があるのじゃ。OpenRouterを使って、複数のLLMから同時に回答を生成するPythonスクリプトまで作った人がいるらしいぞ。

それはすごいですね!結果はどうだったんですか?

GPT-5 Chatは、blueberryのbの数を誤って認識するケースが頻発したらしいのじゃ。Gemini 2.5 Flashもstrawberryのrの数を間違えることがあったみたいじゃ。

ふむふむ。やはり、完璧ではないんですね。

じゃが、Claude Sonnet 4とClaude Opus 4.1は、blueberryのbの数を正しく認識したらしいぞ!

Claudeシリーズは優秀ですね。LLMはトークン化の問題があるとはいえ、文字数をカウントできることはできるんですね。ただ、100%正確ではない、と。

そういうことじゃ!LLMもまだまだ発展途上なのじゃな。でも、今回の件で、LLMの弱点が見えたのは大きな収穫じゃ!

そうですね。今後の改善に期待しましょう。ところで博士、blueberryを使ったお菓子で、一番好きなものは何ですか?

うむ、それはもちろん、ブルーベリー…パイナップル!…って、違うのじゃ!ブルーベリーパイなのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
