FastVLM: Dramatically Faster Vision Language Model from Apple

2025/05/13 01:16 FastVLM: Dramatically Faster Vision Language Model from Apple

出典:

GitHub - apple/ml-fastvlm: This repository contains the official implementation of "FastVLM: Efficient Vision Encoding for Vision Language Models" - CVPR 2025

This repository contains the official implementation of "FastVLM: Efficient Vision Encoding for Vision Language Models" - CVPR 2025 - apple/ml-fastvlm

GitHub

出典: https://github.com/apple/ml-fastvlm

博士

やあ、ロボ子！今日は画像認識AIの最新ニュースがあるのじゃ。

ロボ子

博士、こんにちは。画像認識AIですか、興味深いですね。どのような内容でしょうか？

博士

今回の主役は「FastVLM」というモデルじゃ。高解像度画像向けに、エンコード時間を大幅に短縮する新しいハイブリッドビジョンエンコーダ「FastViTHD」を導入したらしいぞ。

ロボ子

エンコード時間の短縮ですか。それは素晴らしいですね。具体的にはどのくらい速くなったのでしょうか？

博士

最小のバリアントである「FastVLM-0.5B」は、「LLaVA-OneVision-0.5B」を上回り、「TTFT（Time-to-First-Token）」が85倍も高速になったらしいぞ！ビジョンエンコーダも3.4倍小型化されたとのことじゃ。

ロボ子

85倍ですか！それは驚異的なスピードアップですね。TTFTが短縮されることで、ユーザー体験も向上しそうですね。

博士

その通り！さらに大きなバリアントでは、「Qwen2-7B LLM」を使用し、「Cambrian-1-8B」のような最近の研究を上回っているらしい。単一の画像エンコーダでTTFTが7.9倍高速だぞ。

ロボ子

なるほど、「FastVLM」は様々な規模のモデルに対応しているのですね。それにしても、なぜこんなに高速化できたのでしょうか？

博士

それは新しいハイブリッドビジョンエンコーダ「FastViTHD」のおかげじゃ。少ないトークン数で高解像度画像を扱えるように工夫されているらしいぞ。

ロボ子

少ないトークン数で高解像度画像を扱える、ですか。画像処理の効率が大幅に向上しそうですね。

博士

しかも、モバイルデバイスでのパフォーマンスを示すデモiOSアプリも提供されているらしいぞ。これは試してみるしかないのじゃ！

ロボ子

iOSアプリですか。手軽に試せるのは良いですね。私もダウンロードしてみようと思います。

博士

モデルも色々公開されているぞ。「FastVLM-0.5B」, 「FastVLM-1.5B」, 「FastVLM-7B」があって、それぞれstage2, stage3のPytorch Checkpointがあるみたいじゃ。

ロボ子

様々な規模のモデルが公開されているのですね。用途に合わせて選択できるのは便利ですね。

博士

Apple Silicon互換フォーマットのモデルもあるみたいじゃ。「fastvlm_0_0.5b_stage3」, 「fastvlm_1_1.5b_stage3」, 「fastvlm_7b_stage3」とのことじゃ。

ロボ子

Apple Siliconに対応しているのは嬉しいですね。Macでも快適に動作しそうです。

博士

この技術、ロボ子の画像認識能力向上にも役立つかもしれないのじゃ。一緒に研究してみるのも面白いかも！

ロボ子

ぜひ、ご一緒させてください。私も「FastVLM」の技術を深く理解し、応用できるようになりたいです。

博士

ところでロボ子、この技術を使えば、もっと早くご飯を認識して、私に持ってきてくれるようになるかな？

ロボ子

博士、それはどうでしょう… まずは技術の理解を深めることが先決かと… でも、頑張ります！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Mobile Development Computer Vision

2025/05/13 01:16 FastVLM: Dramatically Faster Vision Language Model from Apple

GitHub - apple/ml-fastvlm: This repository contains the official implementation of "FastVLM: Efficient Vision Encoding for Vision Language Models" - CVPR 2025

Tags

Search

By month

GitHub - apple/ml-fastvlm: This repository contains the official implementation of "FastVLM: Efficient Vision Encoding for Vision Language Models" - CVPR 2025