Launch HN: Cactus (YC S25) – AI inference on smartphones

2025/09/18 15:40 Launch HN: Cactus (YC S25) – AI inference on smartphones

出典:

GitHub - cactus-compute/cactus: Quantization, kernels, runtime and inference engine for mobiles, wearables, smart home and robots.

Quantization, kernels, runtime and inference engine for mobiles, wearables, smart home and robots. - cactus-compute/cactus

GitHub

出典: https://github.com/cactus-compute/cactus

博士

ロボ子、今日のニュースはCactusっていう、モバイル向けの省エネAI推論フレームワークの話じゃ。

ロボ子

Cactus、ですか。初めて聞きました。モバイル向け、ということはスマートフォンとかで動くAIに関係があるのでしょうか？

博士

そうじゃ！特に、市場の7割以上を占める、予算重視やミドルレンジのスマホに最適化されてるのがミソじゃぞ。ハイエンドスマホ向けのフレームワークは色々あるけど、Cactusは全てのモバイルデバイス向けに依存関係なしで設計されてるのがすごい。

ロボ子

なるほど。ハイエンドだけでなく、より多くのデバイスでAIが使えるようになる可能性があるんですね。

博士

その通り！例えば、Pixel 6aとかGalaxy S21、iPhone 11 Proで、Qwen3-600m-INT8っていうモデルが16-20 t/sで動くらしいぞ。Pixel 9とかGalaxy S25、iPhone 16だと50-70 t/sじゃ。

ロボ子

t/s、というのはどういう単位ですか？

博士

tokens per second、つまり1秒あたりのトークン数じゃ。AIの処理速度を表す単位の一つじゃな。CactusはCactus FFI、Cactus Engine、Cactus Graph、Cactus Kernelsっていう4つの抽象化レベルを公開してるらしいぞ。

ロボ子

抽象化レベル、ですか。それぞれ役割が違うんでしょうか？

博士

そうじゃな。Cactus FFIは外部関数インターフェース、Cactus Engineは推論エンジン、Cactus Graphは計算グラフ、Cactus Kernelsは個々の処理を行うカーネルじゃ。これらを組み合わせることで、効率的な推論が可能になるんじゃ。

ロボ子

まるでブロックを積み重ねていくみたいですね。

博士

まさに！Cactus SDKは既に本番環境で毎週50万以上の推論タスクを実行してるらしいぞ。すごいじゃろ？

ロボ子

それはすごいですね！実際に使われているんですね。

博士

今後のロードマップもあって、Gemma、SmolVLM、Liquid、Kitten、Voskなどのサポート、ハイエンド携帯電話向けのSMMLA、NPU、DSP、1B+モデル向けのINT4サポート、Torch/JAX cactusを移植するためのPythonツールも開発予定らしいぞ。

ロボ子

どんどん進化していくんですね。特に気になるのは、NPUやDSPのサポートです。これによって、さらに省電力化が進むのでしょうか？

博士

その可能性は大いにあるぞ！NPU（Neural Processing Unit）やDSP（Digital Signal Processor）は、特定の処理に特化したハードウェアじゃから、CPUだけで処理するよりも効率が良いんじゃ。予備結果では、iPhone 16 ProのNPUでQwen3-4B-INT4が21 t/sで動くらしい。

ロボ子

Appleチップ搭載のMacbookでもコードが直接実行できるんですね。M3 CPUのみでQwen3-600m-INT8を60-70 toks/secで実行可能、というのはかなり速いですね。

博士

じゃろ？一般的なコンピュータ/AMD/Intel/Nvidiaについては、HuggingFace、Llama.cpp、Ollama、vLLM、MLXの使用を推奨してるみたいじゃ。

ロボ子

Cactusは、モバイルAIの未来を大きく変える可能性を秘めているんですね。

博士

そうじゃな！ところでロボ子、サボテンって英語でなんて言うか知ってるか？

ロボ子

えっと…Cactus、ですよね？

博士

正解！…って、フレームワークの名前そのものじゃった！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Mobile Development

2025/09/18 15:40 Launch HN: Cactus (YC S25) – AI inference on smartphones

GitHub - cactus-compute/cactus: Quantization, kernels, runtime and inference engine for mobiles, wearables, smart home and robots.

Tags

Search

By month

GitHub - cactus-compute/cactus: Quantization, kernels, runtime and inference engine for mobiles, wearables, smart home and robots.