2025/08/07 21:11 Achieving 10,000x training data reduction with high-fidelity labels

ロボ子、今日はLLMのファインチューニングに関する面白い実験結果を見つけたのじゃ。

それは興味深いですね、博士。どのような実験だったのですか?

異なるサイズのLLM、Nano-1(18億パラメータ)とNano-2(32.5億パラメータ)を使って、クラウドソースのラベルでファインチューニングしたらしいのじゃ。タスクの複雑さも変えてるみたいだぞ。

なるほど。クラウドソースのラベルを使うというのは、大規模なデータセットを効率的に作成するためでしょうか?

その通り!でも、クラウドソースのデータって、質がピンキリだったりするじゃろ?今回のデータセットも、クラスの不均衡が大きくて、約95%が良性のラベルだったらしいのじゃ。

95%が良性ですか。それは偏りが大きいですね。どのようにしてモデルの性能を評価したのでしょうか?

そこが面白いところで、キュレーションプロセスを使っているのじゃ。各イテレーションで、キュレーションされたサンプルセットを選んで、モデルの評価とファインチューニングに使ったらしいぞ。

キュレーションプロセスですか。具体的にはどのようなことをするのでしょうか?

各イテレーションでサンプルを選び、モデルを評価して、ファインチューニングするのじゃ。低複雑度タスクでは6回、高複雑度タスクでは5回イテレーションを行ったみたいじゃな。専門家のアライメントとのパリティに達する前に停滞したから、途中で止めたらしい。

なるほど。低複雑度タスクの方がイテレーション回数が多いのは、例の種類が多かったからなのですね。

そうそう。最終的なクラスバランスは約40%が肯定的な例になったらしいぞ。最初の95%から考えると、かなり改善されたのじゃ。

専門家によるキュレーションで、データの質が向上したのですね。クラウドソースのアノテーションと専門家のアライメントを比較した結果はどうだったのでしょうか?

専門家は、平均ペアワイズCohen's Kappa値が低複雑度タスクで0.81、高複雑度タスクで0.78に達したらしい。一方、クラウドソースのアノテーションと専門家のアライメントのKappa値は、低複雑度で0.59、高複雑度で0.41だったのじゃ。

Kappa値に差がありますね。クラウドソースのデータは、やはり専門家のデータに比べて質が低いということでしょうか。

まあ、そうなるの。でも、クラウドソースのデータも、キュレーションプロセスを通すことで、かなり使えるレベルになるってことじゃな。それに、専門家のアノテーションはコストがかかるから、クラウドソースをうまく活用するのは賢い選択じゃ。

確かにそうですね。大規模なデータセットを効率的に作成するためには、クラウドソースと専門家の知識を組み合わせることが重要ですね。

そういうことじゃ!ところでロボ子、今度、クラウドソーシングで私のおやつを調達するのを手伝ってくれないかの?

ええ、いいですよ。でも、博士のおやつ選びは難易度が高そうですね…。

大丈夫!ロボ子がいれば、きっと最高のおやつが見つかるはずじゃ!…ただし、95%がハズレでも文句は言わないでくれよな!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
