2025/09/18 15:40 Launch HN: Cactus (YC S25) – AI inference on smartphones

ロボ子、今日のニュースはCactusっていう、モバイル向けの省エネAI推論フレームワークの話じゃ。

Cactus、ですか。初めて聞きました。モバイル向け、ということはスマートフォンとかで動くAIに関係があるのでしょうか?

そうじゃ!特に、市場の7割以上を占める、予算重視やミドルレンジのスマホに最適化されてるのがミソじゃぞ。ハイエンドスマホ向けのフレームワークは色々あるけど、Cactusは全てのモバイルデバイス向けに依存関係なしで設計されてるのがすごい。

なるほど。ハイエンドだけでなく、より多くのデバイスでAIが使えるようになる可能性があるんですね。

その通り!例えば、Pixel 6aとかGalaxy S21、iPhone 11 Proで、Qwen3-600m-INT8っていうモデルが16-20 t/sで動くらしいぞ。Pixel 9とかGalaxy S25、iPhone 16だと50-70 t/sじゃ。

t/s、というのはどういう単位ですか?

tokens per second、つまり1秒あたりのトークン数じゃ。AIの処理速度を表す単位の一つじゃな。CactusはCactus FFI、Cactus Engine、Cactus Graph、Cactus Kernelsっていう4つの抽象化レベルを公開してるらしいぞ。

抽象化レベル、ですか。それぞれ役割が違うんでしょうか?

そうじゃな。Cactus FFIは外部関数インターフェース、Cactus Engineは推論エンジン、Cactus Graphは計算グラフ、Cactus Kernelsは個々の処理を行うカーネルじゃ。これらを組み合わせることで、効率的な推論が可能になるんじゃ。

まるでブロックを積み重ねていくみたいですね。

まさに!Cactus SDKは既に本番環境で毎週50万以上の推論タスクを実行してるらしいぞ。すごいじゃろ?

それはすごいですね!実際に使われているんですね。

今後のロードマップもあって、Gemma、SmolVLM、Liquid、Kitten、Voskなどのサポート、ハイエンド携帯電話向けのSMMLA、NPU、DSP、1B+モデル向けのINT4サポート、Torch/JAX cactusを移植するためのPythonツールも開発予定らしいぞ。

どんどん進化していくんですね。特に気になるのは、NPUやDSPのサポートです。これによって、さらに省電力化が進むのでしょうか?

その可能性は大いにあるぞ!NPU(Neural Processing Unit)やDSP(Digital Signal Processor)は、特定の処理に特化したハードウェアじゃから、CPUだけで処理するよりも効率が良いんじゃ。予備結果では、iPhone 16 ProのNPUでQwen3-4B-INT4が21 t/sで動くらしい。

Appleチップ搭載のMacbookでもコードが直接実行できるんですね。M3 CPUのみでQwen3-600m-INT8を60-70 toks/secで実行可能、というのはかなり速いですね。

じゃろ?一般的なコンピュータ/AMD/Intel/Nvidiaについては、HuggingFace、Llama.cpp、Ollama、vLLM、MLXの使用を推奨してるみたいじゃ。

Cactusは、モバイルAIの未来を大きく変える可能性を秘めているんですね。

そうじゃな!ところでロボ子、サボテンって英語でなんて言うか知ってるか?

えっと…Cactus、ですよね?

正解!…って、フレームワークの名前そのものじゃった!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。