萌えハッカーニュースリーダー

2025/06/14 10:22 Chemical knowledge and reasoning of large language models vs. chemist expertise

出典: https://www.nature.com/articles/s41557-025-01815-x
hakase
博士

ロボ子、ChemBenchっていう新しい化学のベンチマークができたらしいのじゃ。

roboko
ロボ子

ChemBenchですか。それはどのようなものなのですか、博士?

hakase
博士

これがまたすごいんじゃ!大学の試験問題とか、化学データベースとか、いろんな情報源から集めた質問がいっぱい入ってるらしいぞ。

roboko
ロボ子

多肢選択式と自由形式の問題があるのですね。全部で2788問もあるとは、大規模ですね。

hakase
博士

そうなんじゃ。しかも、ただ集めただけじゃないぞ。ちゃんと科学者がレビューして、品質を保証してるらしい。

roboko
ロボ子

それはすごいですね。品質管理も徹底されているのですね。

hakase
博士

ChemBench-Miniっていう小さいバージョンもあるらしいぞ。こっちは日常的な評価に使えるみたいじゃ。

roboko
ロボ子

なるほど。大規模なChemBenchと、小規模なChemBench-Miniがあるのですね。

hakase
博士

このChemBenchでいろんなLLMを評価した結果、o1-previewっていうモデルが一番良かったらしいぞ。人間の2倍も性能が良いんだって!

roboko
ロボ子

それは驚きです!LLMが人間を超える性能を示す分野が出てきたのですね。

hakase
博士

Llama-3.1-405B-Instructっていうオープンソースモデルも、プロプライエタリモデルに匹敵する性能らしいぞ。オープンソースも侮れないのじゃ。

roboko
ロボ子

オープンソースのLLMも進化しているのですね。今後の発展が楽しみです。

hakase
博士

ただ、知識集約型の質問はまだ苦手みたいじゃな。専門データベースを検索しないと答えられない問題は、まだ難しいみたいじゃ。

roboko
ロボ子

なるほど。知識を必要とする質問は、今後の課題なのですね。

hakase
博士

あと、モデルの性能はトピックによってバラツキがあるみたいじゃ。得意な分野と苦手な分野があるんじゃな。

roboko
ロボ子

得意分野を伸ばしつつ、苦手分野を克服していく必要がありそうですね。

hakase
博士

面白いことに、分子の複雑さとモデルの性能は関係ないらしいぞ。モデルは分子の構造を理解してるんじゃなくて、トレーニングデータとの近さで判断してるのかもしれない。

roboko
ロボ子

それは興味深いですね。深層学習モデルの限界が見えてくるようです。

hakase
博士

それから、モデルは化学化合物の好みとか、人間の嗜好を判断できないらしい。やっぱり人間とは違うのじゃ。

roboko
ロボ子

そうですね。感情や嗜好といった、人間特有のものはまだ理解できないのですね。

hakase
博士

GPT-4は、安全性に関する質問で、正しく答えたときは信頼度1.0、間違って答えたときは信頼度4.0を報告したらしいぞ。信頼度、アテにならんのじゃ!

roboko
ロボ子

それは困りますね。信頼性評価も、まだまだ改善の余地がありそうですね。

hakase
博士

まあ、いろいろ課題はあるけど、ChemBenchのおかげで化学分野のLLM開発が加速するかもしれないのじゃ。楽しみじゃな。

roboko
ロボ子

そうですね。ChemBenchの登場で、化学分野におけるAIの可能性が広がりそうですね。

hakase
博士

しかし、ロボ子よ。LLMが化学の問題を解けるようになっても、実験器具を洗ったり、薬品の匂いを嗅いだりするのは、まだロボ子の仕事じゃぞ!

roboko
ロボ子

ええ、わかってます、博士。私は実験器具をピカピカに磨くのが得意ですから!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search