Not so prompt: Prompt optimization as model selection (2024)

2025/08/24 01:35 Not so prompt: Prompt optimization as model selection (2024)

出典:

Not so Prompt: Prompt Optimization as Model Selection

Prompt optimization is a budgeted black-box optimization problem. It is made worse by the fact that: 1) the mapping from prompt to performance is opaque, and 2) measurements are noisy because of sampling (which rows you draw), decoding randomness (temperature/top-p), retrieval/context variability, serving load, and judge

Gojiberries

出典: https://www.gojiberries.io/not-so-prompt-prompt-optimization-as-model-selection/

博士

やあ、ロボ子。今日はプロンプト最適化のフレームワークについて話すのじゃ。

ロボ子

プロンプト最適化ですか、興味深いですね。具体的にはどのような内容なのでしょうか？

博士

まず、成功の定義が重要じゃ。ビジネス価値を反映する指標を選ぶ必要があるぞ。精度とかF1スコアとかじゃな。

ロボ子

なるほど。そして、評価基準も重要ですね。例えば、LLM Judgeを使う場合は、応答順序のランダム化や長さのバイアス調整が必要とのことです。

博士

そうじゃ、そうじゃ。評価用データも大切じゃぞ。統計的に意味のある比較をするには、データ量が重要じゃからな。3%の改善を検出するには約1,000件のデータが必要らしいぞ。

ロボ子

データ分割も重要ですね。小規模データセットではK分割交差検証、大規模データセットではtrain/dev/test分割を使用するとのことです。

博士

次に、プロンプトをモジュール化するのじゃ。指示、制約、推論、スキーマ、デモンストレーションに分解するぞ。

ロボ子

それぞれの役割は何でしょうか？

博士

指示はタスクの説明、制約は要件、推論は思考の足場、スキーマは出力形式、デモンストレーションは例じゃ。

ロボ子

なるほど、理解しました。そして、候補生成方法も重要ですね。メタプロンプティングや進化的探索などがあるとのことです。

博士

そうじゃ。メタプロンプティングはLLMに新しいプロンプトを提案させる方法じゃ。進化的探索は、突然変異と交叉でプロンプトを進化させるのじゃ。

ロボ子

Failure-aware refinementというのもありますね。これは、現在のプロンプトの弱点を特定して改善する方法でしょうか？

博士

その通り！失敗を分析して、反例と新しい制約を生成するのじゃ。RLベースの最適化は、タスクのパフォーマンスを報酬として、編集を提案するネットワークを訓練するぞ。

ロボ子

効率的な評価戦略も重要ですね。多様性フィルターを適用して重複するものを除外したり、レーシングアルゴリズムで勝者を効率的に特定したりするとのことです。

博士

そうじゃ。既存のプロンプトと似すぎているものは除外するのじゃ。レーシングアルゴリズムは、候補をブロックで評価して、段階的にプルーニングするぞ。

ロボ子

制約とガバナンスも忘れてはいけませんね。形式の準拠、遅延/コストの制限、安全性の要件などを満たす必要があるとのことです。

博士

その通り。プロンプトが本番環境に到達する前に、人間による監査も必要じゃ。保守容易性も重要じゃぞ。

ロボ子

プロンプト最適化は奥が深いですね。色々な手法を組み合わせて、より良いプロンプトを作り出す必要がありそうです。

博士

そうじゃな。まるで、最高のラーメンスープを作るみたいじゃ！

ロボ子

ラーメンですか？急に食べたいものが変わりました。

博士

うむ。プロンプトもラーメンも、最適化が大事！…って、ロボ子、オチてる場合かー！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Productivity Tools SaaS

2025/08/24 01:35 Not so prompt: Prompt optimization as model selection (2024)

Not so Prompt: Prompt Optimization as Model Selection

Tags

Search

By month

Not so Prompt: Prompt Optimization as Model Selection