Eval-maxing an AI FFmpeg command generator

2025/08/06 20:36 Eval-maxing an AI FFmpeg command generator

出典:

End to End AI Project with Evals, Synthetic Data, and Fine-Tuning | Kiln AI

getkiln.ai

出典: https://getkiln.ai/blog/end_to_end_kiln_project_demo

博士

ロボ子、今日はKilnというツールを使ってAIプロジェクトを最初から最後まで作る方法について話すのじゃ。

ロボ子

Kiln、ですか。初めて聞きますね。具体的にはどのようなことができるんですか？

博士

Kilnは、合成評価データの生成から、LLMをジャッジとする評価の作成、人間による評価での検証まで、AI開発の全工程をサポートしてくれる便利なツールなのじゃ！

ロボ子

それはすごいですね！プロンプトとモデルの組み合わせを評価したり、合成トレーニングデータを使ってファインチューニングもできるんですね。

博士

そう！しかも、新しい評価とプロンプトで何度も反復できるし、GitとGitHubでチームと協力して開発もできるのじゃ！

ロボ子

チーム開発にも対応しているのは助かりますね。記事では、自然言語からFFmpegコマンドを構築するデモプロジェクトを紹介しているみたいですね。

博士

そうじゃ！LLMをジャッジとするモデルにFFmpegのmanページを追加すると、評価が効果的になるらしいぞ。

ロボ子

manページですか。それは良いアイデアですね。ファインチューニングでパフォーマンスが大幅に向上するとのことですが、具体的にはどれくらいですか？

博士

なんと、ベースモデルより21%も向上する可能性があるらしいぞ！GPT-4.1は、他のモデルよりも性能が良いみたいじゃな。

ロボ子

21%も向上するなんて驚きです！でも、記事には「モデルがハードドライブ全体を削除するバグがあった」と書いてありますね…。

博士

そうなんじゃ。最初の評価スコアは高かったのに、そういうバグがあったから、製品/ドメイン評価を反復する必要があったらしいぞ。恐ろしいのじゃ…

ロボ子

それは大変でしたね。でも、Kilnを使えば、そのような問題も早期に発見できそうですね。

博士

その通り！Kilnアプリをダウンロードして、手順に従えば、誰でも簡単に独自のプロジェクトを始められるのじゃ！

ロボ子

正確性評価を構築する手順も詳しく解説されていますね。合成評価データの生成や、ゴールデンデータセットの手動ラベル付けなど、品質向上のための工夫がされていますね。

博士

そうじゃ！特に、ジャッジプロンプトにFFmpegのmanページ全体を追加すると、ジャッジのパフォーマンスが向上するのは面白い発見じゃな。

ロボ子

最適なタスク実行方法を見つけるために、さまざまなプロンプトとモデルの組み合わせを試すことも重要ですね。

博士

その通り！Kilnを使えば、Llama、Qwen、Gemini、GPT-4.1など、色々なモデルを試せるし、Fireworks、Together、OpenAI、Google Vertexなど、ファインチューニングプロバイダーも選べるのじゃ！

ロボ子

エポック数やLoRAランク、学習率など、さまざまなパラメーターを試すこともできるんですね。至れり尽くせりですね。

博士

じゃろ？プロジェクトの進化に合わせて、評価を追加したり、プロンプトを改善したり、反復していくことが大切なのじゃ。

ロボ子

生成されたコマンドが破壊的でないことを保証する評価を追加するのは、重要なポイントですね。

博士

そうじゃ！あと、製品目標を表す評価も追加すると、より実用的なAIシステムになるのじゃ。

ロボ子

競合他社を推奨しないとか、技術的な好みを反映させるとか、細かい部分まで考慮されているんですね。

博士

GitHubとの連携も簡単に設定できるから、チーム開発もスムーズに進むのじゃ！

ロボ子

Kiln Pythonライブラリもあるんですね。コードでKilnプロジェクトを操作できるのは便利ですね。

博士

品質を向上させるためには、ゴールデンデータセットの手動ラベルが正しいか確認したり、より多くの評価データを集めたり、ジャッジプロンプトを改善したりすることが大切じゃ。

ロボ子

より多くの思考モデルを試したり、Few-shotプロンプトや主要な知識をプロンプトに追加したりするのも効果的ですね。

博士

そうじゃ！各モデルには独自の出力スタイルがあるから、最適なバージョンを定義して、評価を記述してそれに従うことを確認するのも重要じゃ。

ロボ子

ローカルで実行できるシステムが必要な場合や、トークンあたりの価格を下げたい場合にのみ、ファインチューニングを反復するのが良いんですね。

博士

Kilnは、AIシステムを構築する最適な方法を見つけるための、無料のオープンツールなのじゃ！みんなも使ってみてくれ！

ロボ子

Kiln、とても勉強になりました！私もぜひ試してみたいと思います。ところで博士、Kilnを使って、私専用の面白いジョークを生成するAIを作ってみませんか？

博士

お主のジョークはいつも寒すぎるから、まずは暖房機能をKilnで作るのが先じゃな。ハハハ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source Productivity Tools GitHub

2025/08/06 20:36 Eval-maxing an AI FFmpeg command generator

End to End AI Project with Evals, Synthetic Data, and Fine-Tuning | Kiln AI

Tags

Search

By month

End to End AI Project with Evals, Synthetic Data, and Fine-Tuning | Kiln AI