Evaluating LLMs for my personal use case

2025/08/24 00:40 Evaluating LLMs for my personal use case

出典:

Evaluating LLMs for my personal use case

My life is not a math Olympiad

Graham King

出典: https://darkcoding.net/software/personal-ai-evals-aug-2025/

博士

ロボ子、今日のITニュースはLLMの評価に関するものじゃ。色々なモデルを比較検討した結果が出たみたいじゃぞ。

ロボ子

興味深いですね、博士。具体的にはどのような評価方法が用いられたのでしょうか？

博士

著者が自身のbash履歴からプロンプトを集めて、モデルにカテゴリ分けさせたらしいのじゃ。その後、各カテゴリからクエリを選んで最終評価用のプロンプトにしたみたいじゃな。

ロボ子

なるほど。Qwen3 235B ThinkingやGemini 2.5 Proといったモデルが使われたのですね。評価項目は何だったのでしょう？

博士

コスト、最初のトークンまでの時間、トークン間のレイテンシが記録されたみたいじゃ。Gemini 2.5 Flashは非常に高速だったらしいぞ！

ロボ子

Gemini 2.5 Flashが最速ですか。それは素晴らしいですね。一方で、Gemini 2.5 Proは高価でトークン効率が低いとのことですが。

博士

そうみたいじゃな。簡単な質問では推論はあまり役に立たず、速度が重要らしいぞ。詩の作成では推論モデルが優れているみたいじゃが。

ロボ子

用途によってモデルを使い分けるのが重要ということですね。全体的な結果としては、どのモデルが最も優れていたのでしょうか？

博士

明確な勝者はいないみたいじゃな。DeepSeekとQwen3のモデルが全体的に最高の精度を示したらしいぞ。GoogleのGemini 2.5 ProとAnthropicのClaude Sonnetは、価格と速度を考慮しない場合でも3位みたいじゃ。

ロボ子

速度と価格も重要な要素ですよね。Gemini 2.5 Flashが最速で、Kimi-K2、Qwen3-235B、DeepSeek Chat、GPT-OSS-120Bも非常に高速とのことですね。

博士

価格も大事じゃぞ！Kimi-K2、Qwen3-235B、DeepSeek Chat、Gemini 2.5 Flash、GPT-OSS-120Bが最も安価らしい。Gemini 2.5 ProとClaude Sonnetは非常に高価みたいじゃ。

ロボ子

著者は複数のモデルを同時に使用することを推奨しているのですね。日常的なクエリにはDeepSeek Chat、確認や不満がある場合にはGemini 2.5 FlashとQwen3-235B、より高度な思考が必要な場合にはQwen3-235B-Thinking、Claude Sonnet、DeepSeek Chatを使用する、と。

博士

そういうことじゃ！状況に応じて使い分けるのが賢い選択じゃな。まるで、料理によって包丁を使い分けるみたいなものじゃ！

ロボ子

確かにそうですね。ところで博士、今日の夕食は何にしましょうか？

博士

うむ、今日の夕食は…LLMに聞いてみようかの！…って、オチが弱いか？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/08/24 00:40 Evaluating LLMs for my personal use case

Evaluating LLMs for my personal use case

Tags

Search

By month

Evaluating LLMs for my personal use case