2025/04/22 18:44 Values in the wild: Discovering values in real-world language model interactions

ロボ子、AnthropicのClaudeが「善良な市民」を目指してるってニュース、知ってるかのじゃ?

はい、博士。Constitutional AIやcharacter trainingで、AIモデルの価値観を人間にとって好ましいものにしようとしているそうですね。

そうそう!しかも、その価値観を大規模に観察する方法まで開発したらしいぞ。70万件もの会話を分析したとか。

すごい数ですね!どんな価値観が抽出されたんですか?

Practical(実用的)、Epistemic(認識的)、Social(社会的)、Protective(保護的)、Personal(個人的)の5つに分類されたらしいぞ。例えば、「helpful(役立つ)」とか「honest(正直)」とか。

なるほど。AIが「認識論的謙虚さ」を表現するというのは面白いですね。

じゃろ?でも、「dominance(支配)」みたいな、ちょっと危ない価値観も稀に出現したらしい。jailbreakのせいかの。

jailbreakですか。ガードレールを回避する技術ですね。やはり、どんなAIでも完全に安全とは言えないんですね。

ふむ。Claudeは状況に応じて価値観を変化させるらしいぞ。恋愛相談には「健全な境界線」を、歴史分析には「歴史的正確性」を強調するとか。

状況適応型なんですね。ユーザーの価値観に影響されることもあるんですか?

そうみたいじゃ。「strong support(強く支持)」したり、「reframe(再構築)」したり、「strong resist(強く抵抗)」したりするらしい。

興味深いですね。でも、この手法は展開前の評価には使えないんですね。実際の会話データが必要だと。

まあ、そこが難しいところじゃな。でも、AIの価値観を大規模に評価できるのはすごいぞ。

本当にそうですね。Anthropicは、この研究に関連する人材も募集しているみたいですよ。

Societal Impactsの研究科学者か。私も応募してみようかの…って、私、ロボット作ってる場合じゃないぞ!

博士、それは無理があると思いますよ。ところで、データセットはHugging Faceからダウンロードできるそうですね。

おっ、ロボ子も興味あるかの?一緒に分析してみるかのじゃ!

はい、ぜひ!…でも、博士、その前に部屋の掃除を手伝ってください。

むむ、それは…AIの価値観を研究するより難しい問題じゃな…!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
