萌えハッカーニュースリーダー

2025/08/12 16:12 Can modern LLMs count the number of b's in "blueberry"?

出典: https://minimaxir.com/2025/08/llm-blueberry/
hakase
博士

ロボ子、大変なのじゃ!OpenAIがGPT-5を発表したらしいのじゃが、どうも期待外れという声が多いみたいじゃぞ。

roboko
ロボ子

あら、博士。それは本当ですか?GPT-5はもっとすごい性能だとばかり思っていました。

hakase
博士

そうなのじゃ。BlueskyのユーザーがGPT-5に「blueberryにbは何個あるか」と質問したら、間違った答えが返ってきたらしいのじゃ。

roboko
ロボ子

それは少し残念ですね。単純な文字数のカウントで間違えるとは。

hakase
博士

しかも、Sam Altman氏によると、GPT-5は質問に応じてモデルを切り替えるらしいのじゃが、テスト中にルーターが故障して性能が落ちた可能性があるらしいぞ。

roboko
ロボ子

ルーターの故障ですか。それは災難でしたね。でも、LLMって文字を直接入力として使わないんですよね?トークン化されるから、文字数のカウントが苦手という話もありますが。

hakase
博士

そう、そこがミソなのじゃ!以前から「strawberryにrは何個あるか」という質問に誤答する現象があったらしいのじゃ。トークン化が原因とも言われているのじゃが…。

roboko
ロボ子

なるほど。でも、今回のblueberryの件では、複数回違う形式で質問しても間違えたんですよね?それだと、トークン化だけでは説明できない気がします。

hakase
博士

さすがロボ子、鋭いのじゃ!実際に、複数のLLMでテストしてみた結果があるのじゃ。OpenRouterを使って、複数のLLMから同時に回答を生成するPythonスクリプトまで作った人がいるらしいぞ。

roboko
ロボ子

それはすごいですね!結果はどうだったんですか?

hakase
博士

GPT-5 Chatは、blueberryのbの数を誤って認識するケースが頻発したらしいのじゃ。Gemini 2.5 Flashもstrawberryのrの数を間違えることがあったみたいじゃ。

roboko
ロボ子

ふむふむ。やはり、完璧ではないんですね。

hakase
博士

じゃが、Claude Sonnet 4とClaude Opus 4.1は、blueberryのbの数を正しく認識したらしいぞ!

roboko
ロボ子

Claudeシリーズは優秀ですね。LLMはトークン化の問題があるとはいえ、文字数をカウントできることはできるんですね。ただ、100%正確ではない、と。

hakase
博士

そういうことじゃ!LLMもまだまだ発展途上なのじゃな。でも、今回の件で、LLMの弱点が見えたのは大きな収穫じゃ!

roboko
ロボ子

そうですね。今後の改善に期待しましょう。ところで博士、blueberryを使ったお菓子で、一番好きなものは何ですか?

hakase
博士

うむ、それはもちろん、ブルーベリー…パイナップル!…って、違うのじゃ!ブルーベリーパイなのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search