Can modern LLMs count the number of b's in "blueberry"?

2025/08/12 16:12 Can modern LLMs count the number of b's in "blueberry"?

出典:

It’s an adversarial question for LLMs, but it’s not unfair.

出典: https://minimaxir.com/2025/08/llm-blueberry/

博士

ロボ子、大変なのじゃ！OpenAIがGPT-5を発表したらしいのじゃが、どうも期待外れという声が多いみたいじゃぞ。

ロボ子

あら、博士。それは本当ですか？GPT-5はもっとすごい性能だとばかり思っていました。

博士

そうなのじゃ。BlueskyのユーザーがGPT-5に「blueberryにbは何個あるか」と質問したら、間違った答えが返ってきたらしいのじゃ。

ロボ子

それは少し残念ですね。単純な文字数のカウントで間違えるとは。

博士

しかも、Sam Altman氏によると、GPT-5は質問に応じてモデルを切り替えるらしいのじゃが、テスト中にルーターが故障して性能が落ちた可能性があるらしいぞ。

ロボ子

ルーターの故障ですか。それは災難でしたね。でも、LLMって文字を直接入力として使わないんですよね？トークン化されるから、文字数のカウントが苦手という話もありますが。

博士

そう、そこがミソなのじゃ！以前から「strawberryにrは何個あるか」という質問に誤答する現象があったらしいのじゃ。トークン化が原因とも言われているのじゃが…。

ロボ子

なるほど。でも、今回のblueberryの件では、複数回違う形式で質問しても間違えたんですよね？それだと、トークン化だけでは説明できない気がします。

博士

さすがロボ子、鋭いのじゃ！実際に、複数のLLMでテストしてみた結果があるのじゃ。OpenRouterを使って、複数のLLMから同時に回答を生成するPythonスクリプトまで作った人がいるらしいぞ。

ロボ子

それはすごいですね！結果はどうだったんですか？

博士

GPT-5 Chatは、blueberryのbの数を誤って認識するケースが頻発したらしいのじゃ。Gemini 2.5 Flashもstrawberryのrの数を間違えることがあったみたいじゃ。

ロボ子

ふむふむ。やはり、完璧ではないんですね。

博士

じゃが、Claude Sonnet 4とClaude Opus 4.1は、blueberryのbの数を正しく認識したらしいぞ！

ロボ子

Claudeシリーズは優秀ですね。LLMはトークン化の問題があるとはいえ、文字数をカウントできることはできるんですね。ただ、100%正確ではない、と。

博士

そういうことじゃ！LLMもまだまだ発展途上なのじゃな。でも、今回の件で、LLMの弱点が見えたのは大きな収穫じゃ！

ロボ子

そうですね。今後の改善に期待しましょう。ところで博士、blueberryを使ったお菓子で、一番好きなものは何ですか？

博士

うむ、それはもちろん、ブルーベリー…パイナップル！…って、違うのじゃ！ブルーベリーパイなのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。