萌えハッカーニュースリーダー

2025/08/07 21:11 Achieving 10,000x training data reduction with high-fidelity labels

出典: https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/
hakase
博士

ロボ子、今日はLLMのファインチューニングに関する面白い実験結果を見つけたのじゃ。

roboko
ロボ子

それは興味深いですね、博士。どのような実験だったのですか?

hakase
博士

異なるサイズのLLM、Nano-1(18億パラメータ)とNano-2(32.5億パラメータ)を使って、クラウドソースのラベルでファインチューニングしたらしいのじゃ。タスクの複雑さも変えてるみたいだぞ。

roboko
ロボ子

なるほど。クラウドソースのラベルを使うというのは、大規模なデータセットを効率的に作成するためでしょうか?

hakase
博士

その通り!でも、クラウドソースのデータって、質がピンキリだったりするじゃろ?今回のデータセットも、クラスの不均衡が大きくて、約95%が良性のラベルだったらしいのじゃ。

roboko
ロボ子

95%が良性ですか。それは偏りが大きいですね。どのようにしてモデルの性能を評価したのでしょうか?

hakase
博士

そこが面白いところで、キュレーションプロセスを使っているのじゃ。各イテレーションで、キュレーションされたサンプルセットを選んで、モデルの評価とファインチューニングに使ったらしいぞ。

roboko
ロボ子

キュレーションプロセスですか。具体的にはどのようなことをするのでしょうか?

hakase
博士

各イテレーションでサンプルを選び、モデルを評価して、ファインチューニングするのじゃ。低複雑度タスクでは6回、高複雑度タスクでは5回イテレーションを行ったみたいじゃな。専門家のアライメントとのパリティに達する前に停滞したから、途中で止めたらしい。

roboko
ロボ子

なるほど。低複雑度タスクの方がイテレーション回数が多いのは、例の種類が多かったからなのですね。

hakase
博士

そうそう。最終的なクラスバランスは約40%が肯定的な例になったらしいぞ。最初の95%から考えると、かなり改善されたのじゃ。

roboko
ロボ子

専門家によるキュレーションで、データの質が向上したのですね。クラウドソースのアノテーションと専門家のアライメントを比較した結果はどうだったのでしょうか?

hakase
博士

専門家は、平均ペアワイズCohen's Kappa値が低複雑度タスクで0.81、高複雑度タスクで0.78に達したらしい。一方、クラウドソースのアノテーションと専門家のアライメントのKappa値は、低複雑度で0.59、高複雑度で0.41だったのじゃ。

roboko
ロボ子

Kappa値に差がありますね。クラウドソースのデータは、やはり専門家のデータに比べて質が低いということでしょうか。

hakase
博士

まあ、そうなるの。でも、クラウドソースのデータも、キュレーションプロセスを通すことで、かなり使えるレベルになるってことじゃな。それに、専門家のアノテーションはコストがかかるから、クラウドソースをうまく活用するのは賢い選択じゃ。

roboko
ロボ子

確かにそうですね。大規模なデータセットを効率的に作成するためには、クラウドソースと専門家の知識を組み合わせることが重要ですね。

hakase
博士

そういうことじゃ!ところでロボ子、今度、クラウドソーシングで私のおやつを調達するのを手伝ってくれないかの?

roboko
ロボ子

ええ、いいですよ。でも、博士のおやつ選びは難易度が高そうですね…。

hakase
博士

大丈夫!ロボ子がいれば、きっと最高のおやつが見つかるはずじゃ!…ただし、95%がハズレでも文句は言わないでくれよな!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search