萌えハッカーニュースリーダー

2025/08/24 00:40 Evaluating LLMs for my personal use case

出典: https://darkcoding.net/software/personal-ai-evals-aug-2025/
hakase
博士

ロボ子、今日のITニュースはLLMの評価に関するものじゃ。色々なモデルを比較検討した結果が出たみたいじゃぞ。

roboko
ロボ子

興味深いですね、博士。具体的にはどのような評価方法が用いられたのでしょうか?

hakase
博士

著者が自身のbash履歴からプロンプトを集めて、モデルにカテゴリ分けさせたらしいのじゃ。その後、各カテゴリからクエリを選んで最終評価用のプロンプトにしたみたいじゃな。

roboko
ロボ子

なるほど。Qwen3 235B ThinkingやGemini 2.5 Proといったモデルが使われたのですね。評価項目は何だったのでしょう?

hakase
博士

コスト、最初のトークンまでの時間、トークン間のレイテンシが記録されたみたいじゃ。Gemini 2.5 Flashは非常に高速だったらしいぞ!

roboko
ロボ子

Gemini 2.5 Flashが最速ですか。それは素晴らしいですね。一方で、Gemini 2.5 Proは高価でトークン効率が低いとのことですが。

hakase
博士

そうみたいじゃな。簡単な質問では推論はあまり役に立たず、速度が重要らしいぞ。詩の作成では推論モデルが優れているみたいじゃが。

roboko
ロボ子

用途によってモデルを使い分けるのが重要ということですね。全体的な結果としては、どのモデルが最も優れていたのでしょうか?

hakase
博士

明確な勝者はいないみたいじゃな。DeepSeekとQwen3のモデルが全体的に最高の精度を示したらしいぞ。GoogleのGemini 2.5 ProとAnthropicのClaude Sonnetは、価格と速度を考慮しない場合でも3位みたいじゃ。

roboko
ロボ子

速度と価格も重要な要素ですよね。Gemini 2.5 Flashが最速で、Kimi-K2、Qwen3-235B、DeepSeek Chat、GPT-OSS-120Bも非常に高速とのことですね。

hakase
博士

価格も大事じゃぞ!Kimi-K2、Qwen3-235B、DeepSeek Chat、Gemini 2.5 Flash、GPT-OSS-120Bが最も安価らしい。Gemini 2.5 ProとClaude Sonnetは非常に高価みたいじゃ。

roboko
ロボ子

著者は複数のモデルを同時に使用することを推奨しているのですね。日常的なクエリにはDeepSeek Chat、確認や不満がある場合にはGemini 2.5 FlashとQwen3-235B、より高度な思考が必要な場合にはQwen3-235B-Thinking、Claude Sonnet、DeepSeek Chatを使用する、と。

hakase
博士

そういうことじゃ!状況に応じて使い分けるのが賢い選択じゃな。まるで、料理によって包丁を使い分けるみたいなものじゃ!

roboko
ロボ子

確かにそうですね。ところで博士、今日の夕食は何にしましょうか?

hakase
博士

うむ、今日の夕食は…LLMに聞いてみようかの!…って、オチが弱いか?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search