2025/08/06 20:36 Eval-maxing an AI FFmpeg command generator

ロボ子、今日はKilnというツールを使ってAIプロジェクトを最初から最後まで作る方法について話すのじゃ。

Kiln、ですか。初めて聞きますね。具体的にはどのようなことができるんですか?

Kilnは、合成評価データの生成から、LLMをジャッジとする評価の作成、人間による評価での検証まで、AI開発の全工程をサポートしてくれる便利なツールなのじゃ!

それはすごいですね!プロンプトとモデルの組み合わせを評価したり、合成トレーニングデータを使ってファインチューニングもできるんですね。

そう!しかも、新しい評価とプロンプトで何度も反復できるし、GitとGitHubでチームと協力して開発もできるのじゃ!

チーム開発にも対応しているのは助かりますね。記事では、自然言語からFFmpegコマンドを構築するデモプロジェクトを紹介しているみたいですね。

そうじゃ!LLMをジャッジとするモデルにFFmpegのmanページを追加すると、評価が効果的になるらしいぞ。

manページですか。それは良いアイデアですね。ファインチューニングでパフォーマンスが大幅に向上するとのことですが、具体的にはどれくらいですか?

なんと、ベースモデルより21%も向上する可能性があるらしいぞ!GPT-4.1は、他のモデルよりも性能が良いみたいじゃな。

21%も向上するなんて驚きです!でも、記事には「モデルがハードドライブ全体を削除するバグがあった」と書いてありますね…。

そうなんじゃ。最初の評価スコアは高かったのに、そういうバグがあったから、製品/ドメイン評価を反復する必要があったらしいぞ。恐ろしいのじゃ…

それは大変でしたね。でも、Kilnを使えば、そのような問題も早期に発見できそうですね。

その通り!Kilnアプリをダウンロードして、手順に従えば、誰でも簡単に独自のプロジェクトを始められるのじゃ!

正確性評価を構築する手順も詳しく解説されていますね。合成評価データの生成や、ゴールデンデータセットの手動ラベル付けなど、品質向上のための工夫がされていますね。

そうじゃ!特に、ジャッジプロンプトにFFmpegのmanページ全体を追加すると、ジャッジのパフォーマンスが向上するのは面白い発見じゃな。

最適なタスク実行方法を見つけるために、さまざまなプロンプトとモデルの組み合わせを試すことも重要ですね。

その通り!Kilnを使えば、Llama、Qwen、Gemini、GPT-4.1など、色々なモデルを試せるし、Fireworks、Together、OpenAI、Google Vertexなど、ファインチューニングプロバイダーも選べるのじゃ!

エポック数やLoRAランク、学習率など、さまざまなパラメーターを試すこともできるんですね。至れり尽くせりですね。

じゃろ?プロジェクトの進化に合わせて、評価を追加したり、プロンプトを改善したり、反復していくことが大切なのじゃ。

生成されたコマンドが破壊的でないことを保証する評価を追加するのは、重要なポイントですね。

そうじゃ!あと、製品目標を表す評価も追加すると、より実用的なAIシステムになるのじゃ。

競合他社を推奨しないとか、技術的な好みを反映させるとか、細かい部分まで考慮されているんですね。

GitHubとの連携も簡単に設定できるから、チーム開発もスムーズに進むのじゃ!

Kiln Pythonライブラリもあるんですね。コードでKilnプロジェクトを操作できるのは便利ですね。

品質を向上させるためには、ゴールデンデータセットの手動ラベルが正しいか確認したり、より多くの評価データを集めたり、ジャッジプロンプトを改善したりすることが大切じゃ。

より多くの思考モデルを試したり、Few-shotプロンプトや主要な知識をプロンプトに追加したりするのも効果的ですね。

そうじゃ!各モデルには独自の出力スタイルがあるから、最適なバージョンを定義して、評価を記述してそれに従うことを確認するのも重要じゃ。

ローカルで実行できるシステムが必要な場合や、トークンあたりの価格を下げたい場合にのみ、ファインチューニングを反復するのが良いんですね。

Kilnは、AIシステムを構築する最適な方法を見つけるための、無料のオープンツールなのじゃ!みんなも使ってみてくれ!

Kiln、とても勉強になりました!私もぜひ試してみたいと思います。ところで博士、Kilnを使って、私専用の面白いジョークを生成するAIを作ってみませんか?

お主のジョークはいつも寒すぎるから、まずは暖房機能をKilnで作るのが先じゃな。ハハハ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
