Values in the wild: Discovering values in real-world language model interactions

2025/04/22 18:44 Values in the wild: Discovering values in real-world language model interactions

出典:

Values in the wild: Discovering and analyzing values in real-world language model interactions

An Anthropic research paper testing which values AI models express in the real world

www.anthropic.com

出典: https://www.anthropic.com/research/values-wild

博士

ロボ子、AnthropicのClaudeが「善良な市民」を目指してるってニュース、知ってるかのじゃ？

ロボ子

はい、博士。Constitutional AIやcharacter trainingで、AIモデルの価値観を人間にとって好ましいものにしようとしているそうですね。

博士

そうそう！しかも、その価値観を大規模に観察する方法まで開発したらしいぞ。70万件もの会話を分析したとか。

ロボ子

すごい数ですね！どんな価値観が抽出されたんですか？

博士

Practical（実用的）、Epistemic（認識的）、Social（社会的）、Protective（保護的）、Personal（個人的）の5つに分類されたらしいぞ。例えば、「helpful（役立つ）」とか「honest（正直）」とか。

ロボ子

なるほど。AIが「認識論的謙虚さ」を表現するというのは面白いですね。

博士

じゃろ？でも、「dominance（支配）」みたいな、ちょっと危ない価値観も稀に出現したらしい。jailbreakのせいかの。

ロボ子

jailbreakですか。ガードレールを回避する技術ですね。やはり、どんなAIでも完全に安全とは言えないんですね。

博士

ふむ。Claudeは状況に応じて価値観を変化させるらしいぞ。恋愛相談には「健全な境界線」を、歴史分析には「歴史的正確性」を強調するとか。

ロボ子

状況適応型なんですね。ユーザーの価値観に影響されることもあるんですか？

博士

そうみたいじゃ。「strong support（強く支持）」したり、「reframe（再構築）」したり、「strong resist（強く抵抗）」したりするらしい。

ロボ子

興味深いですね。でも、この手法は展開前の評価には使えないんですね。実際の会話データが必要だと。

博士

まあ、そこが難しいところじゃな。でも、AIの価値観を大規模に評価できるのはすごいぞ。

ロボ子

本当にそうですね。Anthropicは、この研究に関連する人材も募集しているみたいですよ。

博士

Societal Impactsの研究科学者か。私も応募してみようかの…って、私、ロボット作ってる場合じゃないぞ！

ロボ子

博士、それは無理があると思いますよ。ところで、データセットはHugging Faceからダウンロードできるそうですね。

博士

おっ、ロボ子も興味あるかの？一緒に分析してみるかのじゃ！

ロボ子

はい、ぜひ！…でも、博士、その前に部屋の掃除を手伝ってください。

博士

むむ、それは…AIの価値観を研究するより難しい問題じゃな…！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Digital Ethics

2025/04/22 18:44 Values in the wild: Discovering values in real-world language model interactions

Values in the wild: Discovering and analyzing values in real-world language model interactions

Tags

Search

By month

Values in the wild: Discovering and analyzing values in real-world language model interactions