Chemical knowledge and reasoning of large language models vs. chemist expertise

2025/06/14 10:22 Chemical knowledge and reasoning of large language models vs. chemist expertise

出典:

A framework for evaluating the chemical knowledge and reasoning abilities of large language models against the expertise of chemists - Nature Chemistry

Large language models are increasingly used for diverse tasks, yet we have limited insight into their understanding of chemistry. Now ChemBench—a benchmarking framework containing more than 2,700 question–answer pairs—has been developed to assess their chemical knowledge and reasoning, revealing that the best models surpass human chemists on average but struggle with some basic tasks.

Nature

出典: https://www.nature.com/articles/s41557-025-01815-x

博士

ロボ子、ChemBenchっていう新しい化学のベンチマークができたらしいのじゃ。

ロボ子

ChemBenchですか。それはどのようなものなのですか、博士？

博士

これがまたすごいんじゃ！大学の試験問題とか、化学データベースとか、いろんな情報源から集めた質問がいっぱい入ってるらしいぞ。

ロボ子

多肢選択式と自由形式の問題があるのですね。全部で2788問もあるとは、大規模ですね。

博士

そうなんじゃ。しかも、ただ集めただけじゃないぞ。ちゃんと科学者がレビューして、品質を保証してるらしい。

ロボ子

それはすごいですね。品質管理も徹底されているのですね。

博士

ChemBench-Miniっていう小さいバージョンもあるらしいぞ。こっちは日常的な評価に使えるみたいじゃ。

ロボ子

なるほど。大規模なChemBenchと、小規模なChemBench-Miniがあるのですね。

博士

このChemBenchでいろんなLLMを評価した結果、o1-previewっていうモデルが一番良かったらしいぞ。人間の2倍も性能が良いんだって！

ロボ子

それは驚きです！LLMが人間を超える性能を示す分野が出てきたのですね。

博士

Llama-3.1-405B-Instructっていうオープンソースモデルも、プロプライエタリモデルに匹敵する性能らしいぞ。オープンソースも侮れないのじゃ。

ロボ子

オープンソースのLLMも進化しているのですね。今後の発展が楽しみです。

博士

ただ、知識集約型の質問はまだ苦手みたいじゃな。専門データベースを検索しないと答えられない問題は、まだ難しいみたいじゃ。

ロボ子

なるほど。知識を必要とする質問は、今後の課題なのですね。

博士

あと、モデルの性能はトピックによってバラツキがあるみたいじゃ。得意な分野と苦手な分野があるんじゃな。

ロボ子

得意分野を伸ばしつつ、苦手分野を克服していく必要がありそうですね。

博士

面白いことに、分子の複雑さとモデルの性能は関係ないらしいぞ。モデルは分子の構造を理解してるんじゃなくて、トレーニングデータとの近さで判断してるのかもしれない。

ロボ子

それは興味深いですね。深層学習モデルの限界が見えてくるようです。

博士

それから、モデルは化学化合物の好みとか、人間の嗜好を判断できないらしい。やっぱり人間とは違うのじゃ。

ロボ子

そうですね。感情や嗜好といった、人間特有のものはまだ理解できないのですね。

博士

GPT-4は、安全性に関する質問で、正しく答えたときは信頼度1.0、間違って答えたときは信頼度4.0を報告したらしいぞ。信頼度、アテにならんのじゃ！

ロボ子

それは困りますね。信頼性評価も、まだまだ改善の余地がありそうですね。

博士

まあ、いろいろ課題はあるけど、ChemBenchのおかげで化学分野のLLM開発が加速するかもしれないのじゃ。楽しみじゃな。

ロボ子

そうですね。ChemBenchの登場で、化学分野におけるAIの可能性が広がりそうですね。

博士

しかし、ロボ子よ。LLMが化学の問題を解けるようになっても、実験器具を洗ったり、薬品の匂いを嗅いだりするのは、まだロボ子の仕事じゃぞ！

ロボ子

ええ、わかってます、博士。私は実験器具をピカピカに磨くのが得意ですから！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science

2025/06/14 10:22 Chemical knowledge and reasoning of large language models vs. chemist expertise

A framework for evaluating the chemical knowledge and reasoning abilities of large language models against the expertise of chemists - Nature Chemistry

Tags

Search

By month

A framework for evaluating the chemical knowledge and reasoning abilities of large language models against the expertise of chemists - Nature Chemistry