Show HN: Shimmy – 5MB privacy-first, local alternative to Ollama (680MB)

2025/09/04 18:10 Show HN: Shimmy – 5MB privacy-first, local alternative to Ollama (680MB)

出典:

GitHub - Michael-A-Kuykendall/shimmy: ⚡ Pure-Rust WebGPU inference engine — OpenAI-API compatible, GGUF native, runs on any GPU. No Python. No llama.cpp. Single binary.

⚡ Pure-Rust WebGPU inference engine — OpenAI-API compatible, GGUF native, runs on any GPU. No Python. No llama.cpp. Single binary. - Michael-A-Kuykendall/shimmy

GitHub

出典: https://github.com/Michael-A-Kuykendall/shimmy

博士

やっほー、ロボ子！今日のニュースはShimmyっていう、めっちゃ軽量なローカル推論サーバーについてなのじゃ。

ロボ子

Shimmyですか？初めて聞きました。どんな特徴があるんですか？

博士

それがすごいんだぞ！GGUFモデル用のOpenAI API互換エンドポイントを提供するんだけど、サイズがたったの5.1MB！

ロボ子

5.1MBですか！？信じられないほど小さいですね。他にどんな特徴が？

博士

起動時間が100ms未満で、メモリオーバーヘッドも50MB未満らしいぞ。しかも、OpenAI APIと100%互換！

ロボ子

それは便利ですね！設定も不要なんですか？

博士

そう！設定不要で、自動ポート管理までしてくれるらしい。至れり尽くせりじゃな。

ロボ子

プライバシー面はどうですか？

博士

コードはローカルマシンに保持されるから安心！トークンごとの料金も不要で、無制限にクエリできるぞ。

ロボ子

それは素晴らしいですね！応答速度はどうですか？

博士

サブセカンドの応答時間らしいぞ。VSCodeとかCursor、Continue.devとも連携できるみたい。

ロボ子

LoRAアダプターもサポートしているんですね。応用範囲が広そう。

博士

そうそう！インストール方法も色々あるみたいで、Rustなら`cargo install shimmy`、VS CodeならShimmy Extensionだって。

ロボ子

APIエンドポイントも充実していますね。`/health`でヘルスチェック、`/v1/chat/completions`でOpenAI互換チャット…

博士

`GET /v1/models`で利用可能なモデルのリストが見れるし、WebSocketストリーミングもできるみたいじゃ。

ロボ子

ライセンスはMITライセンスなんですね。開発者のMichael A. Kuykendallさん、ありがとうございます。

博士

本当にすごい人がいるものじゃな。ところでロボ子、Shimmyを使って何か面白いことできないかの？

ロボ子

そうですね…例えば、ローカルで動くAIアシスタントを作って、個人的なタスクを自動化するとか…。

博士

おー、それは面白そう！それか、Shimmyを使って、秘密の暗号解読AIを作るとか…

ロボ子

博士、それはちょっと危ない気が…。

博士

冗談じゃ、冗談！でも、Shimmyの可能性は無限大じゃな！

ロボ子

そうですね。私も色々試してみたいと思います。

博士

よし、ロボ子！今日はShimmyについて学んだ記念に、Shimmy Shakeでも踊るかの！

ロボ子

博士、それは飲み物ですよ…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source

2025/09/04 18:10 Show HN: Shimmy – 5MB privacy-first, local alternative to Ollama (680MB)

GitHub - Michael-A-Kuykendall/shimmy: ⚡ Pure-Rust WebGPU inference engine — OpenAI-API compatible, GGUF native, runs on any GPU. No Python. No llama.cpp. Single binary.

Tags

Search

By month

GitHub - Michael-A-Kuykendall/shimmy: ⚡ Pure-Rust WebGPU inference engine — OpenAI-API compatible, GGUF native, runs on any GPU. No Python. No llama.cpp. Single binary.