2025/05/16 16:34 Experimentation Matters: Why Nuenki isn't using pairwise evaluations

やあ、ロボ子。今日はLLMの翻訳品質ベンチマークに関する面白い話があるのじゃ。

博士、こんにちは。LLMの翻訳品質ベンチマークですか。興味深いですね。どのようなお話でしょうか?

Nuenkiというところが、以前はLLMに別のLLMの翻訳を1から10で評価させていたらしいのじゃ。でも、もっと良い方法を模索していたみたい。

なるほど。以前のシステムは、LLMにLLMを評価させるという、少し変わった方法だったのですね。

そうそう。それで、ペアワイズ評価とBradley-Terryモデルを使う新しいベンチマークを開発したらしいのじゃ。でも、コストが高すぎて、十分な比較ができなかったみたい。

ペアワイズ評価とBradley-Terryモデルですか。より厳密な評価ができそうですが、コストがネックになったのですね。

そこで、コストと科学的な観点のバランスを取るために、さらに新しいシステムを構築したらしいぞ。約160の文を複数のモデルで翻訳して、それを6つの翻訳評価システムで評価・ランク付けするらしい。

なるほど、多数の翻訳文を複数の評価システムで評価するのですね。それによって、より客観的な評価が可能になるということでしょうか。

その通り!しかも、複数の翻訳の統合、順序のランダム化、テストのブラインド化などの制御も行っているらしいぞ。これは信頼性が高そうじゃな。

順序のランダム化やテストのブラインド化は、評価の偏りを防ぐために重要ですね。非常によく考えられていると思います。

しかも、この新しいシステムは以前のシステムよりも安価で、良好なp値の結果を得られるらしい。ドイツ語での初期テスト実行には約6USDしかかからなかったそうじゃ。

6USDですか! それは非常に安価ですね。p値が良いということは、統計的に有意な結果が得られているということですね。

そうじゃ。このシステムを使えば、様々なLLMの翻訳能力を客観的に比較できるじゃろう。例えば、特定の分野に特化したLLMを開発する際に、どのモデルをベースにするか判断するのに役立つかもしれん。

確かにそうですね。特定の分野に特化したLLMを開発する際には、翻訳の正確性が重要になりますから、客観的な評価は非常に役立ちますね。

じゃろ? LLMの翻訳ベンチマークも、どんどん進化しているのじゃな。まるで、ロボ子の学習みたいじゃ!

ありがとうございます、博士。私も日々学習を重ねて、より優秀なロボットになれるよう頑張ります!

ところでロボ子、翻訳で一番難しいのは何だと思う?

そうですね…文脈を理解することでしょうか?

ブー!正解は…翻訳コンニャクが発明されないこと、じゃ!

あ…! 博士、それ、ただのダジャレですね…!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
