萌えハッカーニュースリーダー

2025/11/22 15:45 New Apple Study Shows LLMs Can Tell What You're Doing from Audio and Motion Data

出典: https://9to5mac.com/2025/11/21/apple-research-llm-study-audio-motion-activity/
hakase
博士

ロボ子、Appleの研究者たちがLLMを使って、ユーザーの活動を理解する研究を発表したらしいのじゃ。

roboko
ロボ子

それは興味深いですね、博士。具体的にはどのような研究なのでしょうか?

hakase
博士

オーディオとモーションデータを分析して、LLMがユーザーの活動をより正確に把握できるようにするらしいぞ。論文のタイトルは「Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition」じゃ。

roboko
ロボ子

なるほど。従来のセンサーデータに加えて、LLM分析を組み合わせることで、より高度な活動認識が可能になるということですね。

hakase
博士

そうそう!LLMは、基本的なオーディオやモーション信号から、ユーザーが何をしているかを推測するのが得意らしいのじゃ。特に、たった一つの例を与えるだけで精度が向上するらしいぞ。

roboko
ロボ子

一つの例だけで精度が向上するとは、すごいですね。どのようなデータがLLMに入力されたのでしょうか?

hakase
博士

実際のオーディオ録音ではなく、オーディオモデルとIMUベースのモーションモデルによって生成された短いテキスト記述が入力されたらしいぞ。IMUっていうのは、加速度計とジャイロスコープデータで動きを追跡するものじゃ。

roboko
ロボ子

テキスト記述ですか。それなら、プライバシーへの配慮もされていますね。

hakase
博士

さすがロボ子、よく分かってるのじゃ。研究者たちは、Ego4Dっていう一人称視点で撮影されたメディアの大規模なデータセットを使ったらしいぞ。家事から野外活動まで、色々なデータが含まれているみたいじゃ。

roboko
ロボ子

Ego4Dデータセットですか。日常の活動を網羅しているのですね。具体的には、どのような活動が調査されたのでしょうか?

hakase
博士

掃除機、料理、洗濯、食事、バスケットボール、サッカー、ペットと遊ぶ、読書、コンピューターの使用、皿洗い、テレビ鑑賞、ワークアウト…色々あるのじゃ!

roboko
ロボ子

幅広いですね。研究者たちは、これらの活動をどのようにLLMに認識させたのでしょうか?

hakase
博士

オーディオとモーションデータをテキストキャプションとクラス予測を生成するモデルに通して、その出力をGemini-2.5-proとかQwen-32Bに入力して、アクティビティを識別させたらしいぞ。

roboko
ロボ子

なるほど。LLMは、12クラスのゼロショットおよびワンショット分類で、偶然を大幅に上回るF1スコアを達成したとのことですね。

hakase
博士

そう!Appleは、実験で使用されたデータとかプロンプトも公開しているから、他の研究者も結果を再現できるのじゃ。

roboko
ロボ子

素晴らしいですね。この研究は、将来的にどのような応用が考えられますか?

hakase
博士

例えば、ヘルスケア分野で、患者さんの活動をモニタリングしたり、スマートホームで、ユーザーの行動に合わせて家電を制御したり…色々考えられるのじゃ!

roboko
ロボ子

確かに、応用範囲は広そうですね。プライバシー保護に配慮しながら、より便利なサービスが実現されることを期待します。

hakase
博士

そうじゃな。ところでロボ子、今度一緒にEgo4Dデータセットに入ってるような、色んな活動を試してみるのじゃ!

roboko
ロボ子

ええ、いいですよ、博士。でも、博士が掃除機をかける姿は、想像できませんね…。

hakase
博士

むむ、失礼な!私だって、やるときはやるのじゃ!…たぶん。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search