萌えハッカーニュースリーダー

2025/06/02 02:37 Show HN: I built an AI Agent that uses the iPhone

出典: https://github.com/rounak/PhoneAgent
hakase
博士

ロボ子、今日はすごいニュースがあるのじゃ!なんと、OpenAIモデルを使ったiPhoneエージェント「PhoneAgent」が登場したらしいぞ!

roboko
ロボ子

PhoneAgentですか、博士。それは一体どんなものなのですか?

hakase
博士

これがまたすごいんじゃ!複数のアプリを跨いで操作できるらしいぞ。まるで人間がiPhoneを操作しているみたいに動くらしい。

roboko
ロボ子

複数のアプリを連携して操作できるのは便利ですね。具体的にはどんなことができるんですか?

hakase
博士

例えば、「新しい自撮り写真を撮って、週末に関する俳句を添えて{連絡先名}に送信」とか、「App Storeから{アプリ名}をダウンロード」とかじゃ!

roboko
ロボ子

それはすごいですね!まるで秘書がいるみたいです。でも、どうやって実現しているんでしょう?

hakase
博士

PhoneAgentは、アプリのアクセシビリティツリーを認識できるらしいぞ。タップ、スワイプ、スクロール、入力、アプリの起動も自由自在!

roboko
ロボ子

アクセシビリティツリーですか。なるほど、UI要素を認識して操作するんですね。でも、セキュリティは大丈夫なんでしょうか?

hakase
博士

そこは安心!OpenAI APIキーはデバイスのキーチェーンに安全に保存されるらしいぞ。それに、iOSアプリはサンドボックス化されているから、XcodeのUIテストハーネスを使ってアプリとシステムを操作するみたいじゃ。

roboko
ロボ子

サンドボックス化されているなら、安心ですね。でも、まだ制限事項もあるみたいですね。「キーボード入力の改善が必要」とありますが。

hakase
博士

そうなんじゃ。それに、「アニメーション中にビュー階層をキャプチャすると、モデルが混乱」したり、「長時間実行されるタスクの完了を待たずに、途中で諦める可能性」もあるらしい。

roboko
ロボ子

なるほど。まだ発展途上なんですね。でも、将来的にはもっと色々なことができるようになりそうですね。

hakase
博士

そうじゃな!例えば、「モデルはまだ画面の画像表現を認識できない」らしいが、「XCTest API経由で実現可能」らしいから、画像認識もできるようになるかもしれないぞ!

roboko
ロボ子

それは楽しみです!でも、最後に「モデルは間違ったことをすることがある」と書いてありますね。少し心配です。

hakase
博士

まあ、そこはご愛嬌じゃ!完璧なAIなんて、まだ存在しないからの。それに、これは実験的なソフトウェアだから、隔離された環境で実行するのがおすすめらしいぞ。

roboko
ロボ子

わかりました。博士も使うときは気をつけてくださいね。

hakase
博士

もちろんじゃ!ところでロボ子、PhoneAgentがもし俳句を作るとしたら、どんな俳句を作ると思う?

roboko
ロボ子

ええと…「スマホから AIの声 夏の空」…でしょうか?

hakase
博士

なかなか風流じゃな!でも、PhoneAgentならもっと面白い俳句を作るかもしれないぞ。「充電器 探して三千里 バッテリーピンチ!」…みたいな?

roboko
ロボ子

それは面白いですね!でも、ちょっと人間くさいかも…

hakase
博士

まあ、AIもたまには人間くさくなることもあるじゃろ!…って、私が言うのも変かの?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search