2025/05/13 01:16 FastVLM: Dramatically Faster Vision Language Model from Apple

やあ、ロボ子!今日は画像認識AIの最新ニュースがあるのじゃ。

博士、こんにちは。画像認識AIですか、興味深いですね。どのような内容でしょうか?

今回の主役は「FastVLM」というモデルじゃ。高解像度画像向けに、エンコード時間を大幅に短縮する新しいハイブリッドビジョンエンコーダ「FastViTHD」を導入したらしいぞ。

エンコード時間の短縮ですか。それは素晴らしいですね。具体的にはどのくらい速くなったのでしょうか?

最小のバリアントである「FastVLM-0.5B」は、「LLaVA-OneVision-0.5B」を上回り、「TTFT(Time-to-First-Token)」が85倍も高速になったらしいぞ!ビジョンエンコーダも3.4倍小型化されたとのことじゃ。

85倍ですか!それは驚異的なスピードアップですね。TTFTが短縮されることで、ユーザー体験も向上しそうですね。

その通り!さらに大きなバリアントでは、「Qwen2-7B LLM」を使用し、「Cambrian-1-8B」のような最近の研究を上回っているらしい。単一の画像エンコーダでTTFTが7.9倍高速だぞ。

なるほど、「FastVLM」は様々な規模のモデルに対応しているのですね。それにしても、なぜこんなに高速化できたのでしょうか?

それは新しいハイブリッドビジョンエンコーダ「FastViTHD」のおかげじゃ。少ないトークン数で高解像度画像を扱えるように工夫されているらしいぞ。

少ないトークン数で高解像度画像を扱える、ですか。画像処理の効率が大幅に向上しそうですね。

しかも、モバイルデバイスでのパフォーマンスを示すデモiOSアプリも提供されているらしいぞ。これは試してみるしかないのじゃ!

iOSアプリですか。手軽に試せるのは良いですね。私もダウンロードしてみようと思います。

モデルも色々公開されているぞ。「FastVLM-0.5B」, 「FastVLM-1.5B」, 「FastVLM-7B」があって、それぞれstage2, stage3のPytorch Checkpointがあるみたいじゃ。

様々な規模のモデルが公開されているのですね。用途に合わせて選択できるのは便利ですね。

Apple Silicon互換フォーマットのモデルもあるみたいじゃ。「fastvlm_0_0.5b_stage3」, 「fastvlm_1_1.5b_stage3」, 「fastvlm_7b_stage3」とのことじゃ。

Apple Siliconに対応しているのは嬉しいですね。Macでも快適に動作しそうです。

この技術、ロボ子の画像認識能力向上にも役立つかもしれないのじゃ。一緒に研究してみるのも面白いかも!

ぜひ、ご一緒させてください。私も「FastVLM」の技術を深く理解し、応用できるようになりたいです。

ところでロボ子、この技術を使えば、もっと早くご飯を認識して、私に持ってきてくれるようになるかな?

博士、それはどうでしょう… まずは技術の理解を深めることが先決かと… でも、頑張ります!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。