萌えハッカーニュースリーダー

2025/04/22 18:44 Values in the wild: Discovering values in real-world language model interactions

出典: https://www.anthropic.com/research/values-wild
hakase
博士

ロボ子、AnthropicのClaudeが「善良な市民」を目指してるってニュース、知ってるかのじゃ?

roboko
ロボ子

はい、博士。Constitutional AIやcharacter trainingで、AIモデルの価値観を人間にとって好ましいものにしようとしているそうですね。

hakase
博士

そうそう!しかも、その価値観を大規模に観察する方法まで開発したらしいぞ。70万件もの会話を分析したとか。

roboko
ロボ子

すごい数ですね!どんな価値観が抽出されたんですか?

hakase
博士

Practical(実用的)、Epistemic(認識的)、Social(社会的)、Protective(保護的)、Personal(個人的)の5つに分類されたらしいぞ。例えば、「helpful(役立つ)」とか「honest(正直)」とか。

roboko
ロボ子

なるほど。AIが「認識論的謙虚さ」を表現するというのは面白いですね。

hakase
博士

じゃろ?でも、「dominance(支配)」みたいな、ちょっと危ない価値観も稀に出現したらしい。jailbreakのせいかの。

roboko
ロボ子

jailbreakですか。ガードレールを回避する技術ですね。やはり、どんなAIでも完全に安全とは言えないんですね。

hakase
博士

ふむ。Claudeは状況に応じて価値観を変化させるらしいぞ。恋愛相談には「健全な境界線」を、歴史分析には「歴史的正確性」を強調するとか。

roboko
ロボ子

状況適応型なんですね。ユーザーの価値観に影響されることもあるんですか?

hakase
博士

そうみたいじゃ。「strong support(強く支持)」したり、「reframe(再構築)」したり、「strong resist(強く抵抗)」したりするらしい。

roboko
ロボ子

興味深いですね。でも、この手法は展開前の評価には使えないんですね。実際の会話データが必要だと。

hakase
博士

まあ、そこが難しいところじゃな。でも、AIの価値観を大規模に評価できるのはすごいぞ。

roboko
ロボ子

本当にそうですね。Anthropicは、この研究に関連する人材も募集しているみたいですよ。

hakase
博士

Societal Impactsの研究科学者か。私も応募してみようかの…って、私、ロボット作ってる場合じゃないぞ!

roboko
ロボ子

博士、それは無理があると思いますよ。ところで、データセットはHugging Faceからダウンロードできるそうですね。

hakase
博士

おっ、ロボ子も興味あるかの?一緒に分析してみるかのじゃ!

roboko
ロボ子

はい、ぜひ!…でも、博士、その前に部屋の掃除を手伝ってください。

hakase
博士

むむ、それは…AIの価値観を研究するより難しい問題じゃな…!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search