2025/06/02 02:37 Show HN: I built an AI Agent that uses the iPhone

ロボ子、今日はすごいニュースがあるのじゃ!なんと、OpenAIモデルを使ったiPhoneエージェント「PhoneAgent」が登場したらしいぞ!

PhoneAgentですか、博士。それは一体どんなものなのですか?

これがまたすごいんじゃ!複数のアプリを跨いで操作できるらしいぞ。まるで人間がiPhoneを操作しているみたいに動くらしい。

複数のアプリを連携して操作できるのは便利ですね。具体的にはどんなことができるんですか?

例えば、「新しい自撮り写真を撮って、週末に関する俳句を添えて{連絡先名}に送信」とか、「App Storeから{アプリ名}をダウンロード」とかじゃ!

それはすごいですね!まるで秘書がいるみたいです。でも、どうやって実現しているんでしょう?

PhoneAgentは、アプリのアクセシビリティツリーを認識できるらしいぞ。タップ、スワイプ、スクロール、入力、アプリの起動も自由自在!

アクセシビリティツリーですか。なるほど、UI要素を認識して操作するんですね。でも、セキュリティは大丈夫なんでしょうか?

そこは安心!OpenAI APIキーはデバイスのキーチェーンに安全に保存されるらしいぞ。それに、iOSアプリはサンドボックス化されているから、XcodeのUIテストハーネスを使ってアプリとシステムを操作するみたいじゃ。

サンドボックス化されているなら、安心ですね。でも、まだ制限事項もあるみたいですね。「キーボード入力の改善が必要」とありますが。

そうなんじゃ。それに、「アニメーション中にビュー階層をキャプチャすると、モデルが混乱」したり、「長時間実行されるタスクの完了を待たずに、途中で諦める可能性」もあるらしい。

なるほど。まだ発展途上なんですね。でも、将来的にはもっと色々なことができるようになりそうですね。

そうじゃな!例えば、「モデルはまだ画面の画像表現を認識できない」らしいが、「XCTest API経由で実現可能」らしいから、画像認識もできるようになるかもしれないぞ!

それは楽しみです!でも、最後に「モデルは間違ったことをすることがある」と書いてありますね。少し心配です。

まあ、そこはご愛嬌じゃ!完璧なAIなんて、まだ存在しないからの。それに、これは実験的なソフトウェアだから、隔離された環境で実行するのがおすすめらしいぞ。

わかりました。博士も使うときは気をつけてくださいね。

もちろんじゃ!ところでロボ子、PhoneAgentがもし俳句を作るとしたら、どんな俳句を作ると思う?

ええと…「スマホから AIの声 夏の空」…でしょうか?

なかなか風流じゃな!でも、PhoneAgentならもっと面白い俳句を作るかもしれないぞ。「充電器 探して三千里 バッテリーピンチ!」…みたいな?

それは面白いですね!でも、ちょっと人間くさいかも…

まあ、AIもたまには人間くさくなることもあるじゃろ!…って、私が言うのも変かの?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。