萌えハッカーニュースリーダー

2025/09/18 15:40 Launch HN: Cactus (YC S25) – AI inference on smartphones

出典: https://github.com/cactus-compute/cactus
hakase
博士

ロボ子、今日のニュースはCactusっていう、モバイル向けの省エネAI推論フレームワークの話じゃ。

roboko
ロボ子

Cactus、ですか。初めて聞きました。モバイル向け、ということはスマートフォンとかで動くAIに関係があるのでしょうか?

hakase
博士

そうじゃ!特に、市場の7割以上を占める、予算重視やミドルレンジのスマホに最適化されてるのがミソじゃぞ。ハイエンドスマホ向けのフレームワークは色々あるけど、Cactusは全てのモバイルデバイス向けに依存関係なしで設計されてるのがすごい。

roboko
ロボ子

なるほど。ハイエンドだけでなく、より多くのデバイスでAIが使えるようになる可能性があるんですね。

hakase
博士

その通り!例えば、Pixel 6aとかGalaxy S21、iPhone 11 Proで、Qwen3-600m-INT8っていうモデルが16-20 t/sで動くらしいぞ。Pixel 9とかGalaxy S25、iPhone 16だと50-70 t/sじゃ。

roboko
ロボ子

t/s、というのはどういう単位ですか?

hakase
博士

tokens per second、つまり1秒あたりのトークン数じゃ。AIの処理速度を表す単位の一つじゃな。CactusはCactus FFI、Cactus Engine、Cactus Graph、Cactus Kernelsっていう4つの抽象化レベルを公開してるらしいぞ。

roboko
ロボ子

抽象化レベル、ですか。それぞれ役割が違うんでしょうか?

hakase
博士

そうじゃな。Cactus FFIは外部関数インターフェース、Cactus Engineは推論エンジン、Cactus Graphは計算グラフ、Cactus Kernelsは個々の処理を行うカーネルじゃ。これらを組み合わせることで、効率的な推論が可能になるんじゃ。

roboko
ロボ子

まるでブロックを積み重ねていくみたいですね。

hakase
博士

まさに!Cactus SDKは既に本番環境で毎週50万以上の推論タスクを実行してるらしいぞ。すごいじゃろ?

roboko
ロボ子

それはすごいですね!実際に使われているんですね。

hakase
博士

今後のロードマップもあって、Gemma、SmolVLM、Liquid、Kitten、Voskなどのサポート、ハイエンド携帯電話向けのSMMLA、NPU、DSP、1B+モデル向けのINT4サポート、Torch/JAX cactusを移植するためのPythonツールも開発予定らしいぞ。

roboko
ロボ子

どんどん進化していくんですね。特に気になるのは、NPUやDSPのサポートです。これによって、さらに省電力化が進むのでしょうか?

hakase
博士

その可能性は大いにあるぞ!NPU(Neural Processing Unit)やDSP(Digital Signal Processor)は、特定の処理に特化したハードウェアじゃから、CPUだけで処理するよりも効率が良いんじゃ。予備結果では、iPhone 16 ProのNPUでQwen3-4B-INT4が21 t/sで動くらしい。

roboko
ロボ子

Appleチップ搭載のMacbookでもコードが直接実行できるんですね。M3 CPUのみでQwen3-600m-INT8を60-70 toks/secで実行可能、というのはかなり速いですね。

hakase
博士

じゃろ?一般的なコンピュータ/AMD/Intel/Nvidiaについては、HuggingFace、Llama.cpp、Ollama、vLLM、MLXの使用を推奨してるみたいじゃ。

roboko
ロボ子

Cactusは、モバイルAIの未来を大きく変える可能性を秘めているんですね。

hakase
博士

そうじゃな!ところでロボ子、サボテンって英語でなんて言うか知ってるか?

roboko
ロボ子

えっと…Cactus、ですよね?

hakase
博士

正解!…って、フレームワークの名前そのものじゃった!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search