I clustered four Framework Mainboards to test LLMs

2025/08/08 17:20 I clustered four Framework Mainboards to test LLMs

出典:

I clustered four Framework Mainboards to test huge LLMs

Framework casually mentioned they were testing a mini-rack AI cluster in their Framework Desktop presentation back in March. Imagine my surprise when Nirav Patel, Framework's founder and CEO, was at Open Sauce a couple weeks ago, and wanted to talk! He said they had seen my Project Mini Rack posts earlier this year and thought it was the perfect application to try out their new AMD Ryzen AI Max+ 395-powered Mainboard, as its mini ITX dimensions fit inside a 10" rack.

Jeff Geerling

出典: https://www.jeffgeerling.com/blog/2025/i-clustered-four-framework-mainboards-test-huge-llms

博士

ロボ子、FrameworkがミニラックAIクラスターをテストしてるらしいのじゃ！

ロボ子

それは興味深いですね、博士。Frameworkの創業者兼CEOのNirav Patel氏が、新しいAMD Ryzen AI Max+ 395搭載Mainboardを試すのに最適だと言っているようですね。

博士

そうそう！しかも、プレリリースのMainboardとか、電源とか、NoctuaのCPUファンキットまで提供されたみたいじゃぞ。

ロボ子

DeskPiとの協力で、Framework Desktop用の新しい2U Mini ITXトレイも入手したとのことです。

博士

今回のプロジェクトは「Beowulf AI Cluster」っていう名前らしいのじゃ。CPU、GPU、混合推論オプションを備えたBeowulfクラスターに、いろんなオープンソースAIクラスタリングツールをデプロイするためのAnsible自動化プレイブックのセットみたいじゃな。

ロボ子

MainboardにはAPUとRAMがはんだ付けされているんですね。メモリタイミングを維持するためだとか。

博士

さすがロボ子、よく見てるのじゃ！ノイズが少なくて、スリープ時の消費電力は約2W、アイドル時は11W、全開でも約150Wらしいぞ。

ロボ子

Thunderbolt / USB4ポートからは10 Gbpsしか得られなかったみたいですが、内蔵NICは5 Gbpsで問題なくその速度に達したとのことです。

博士

1つのシステムでLinuxカーネルを1分以内にコンパイルできるのはすごいじゃな！

ロボ子

Ryzen AI Max+チップの機能をすべて利用するようにHPLセットアップを調整しなくても、1 TFLOP以上のFP64パフォーマンスを達成したそうですよ。

博士

でも、AMDのAIサポートはまだ不十分で、ROCmドライバーとライブラリの問題のデバッグに時間がかかったみたいじゃな。NPUみたいなチップの一部をテストできないから、購入する際は動作が確認されている機能を考慮する必要があるって。

ロボ子

Fedora 42でOllamaをROCmで動作させるのに苦労し、Rawhideにアップグレードしたそうですね。

博士

iGPUを使用した場合、非常に優れた数値が得られ、効率もAMDのコンシューマーチップでテストした中で最高だったらしいぞ。

ロボ子

Beowulf AI Clusterプロジェクトを使用して、Exo、llama.cpp RPC、dllamaを使用してクラスターでさまざまなモデルをテストした結果、Exoはメンテナンスされておらず、llama.cpp RPCは小規模モデルではうまく動作するが、大規模モデルでは問題が発生したようですね。

博士

distributed-llamaはサポートされているモデルをクラスター全体でうまく実行するけど、Vulkanのサポートが不安定で、推論が不安定になることがあったみたいじゃ。

ロボ子

llama.cppのRPCモードは有望ですが、巨大LLMのラウンドロビン問題が発生するんですね。

博士

AIクラスタリング用のツールはまだ準備ができていないみたいじゃな。テストしたクラスター構成の費用は約8,004ドルで、FrameworkクラスターはLlama 3.1 405Bで4トークン/秒、M3 Ultra Mac Studioは約10,000ドルで16トークン/秒らしいぞ。

ロボ子

DeepSeek R1 Q2_K_MやChatGPTの新しい'oss'モデルの結果も掲載されていますね。

博士

クラスター全体で実行すると、推論は24トークン/秒に低下するみたいじゃ。可能な限り垂直方向にスケールする必要があるって。

ロボ子

オープンソースのAIクラスタリングツールが他のHPCツールと同じくらい優れている場合があるが、現時点では、より優れたクラスターパフォーマンスが必要な場合は、特殊なハードウェアと高速インターコネクトを入手し、最適化に多くの時間を費やす必要があるとのことです。

博士

AIクラスタリングは興味深いけど、主流になるにはまだ時間がかかりそうじゃな。Framework Desktopは優れたMini ITXシステムで、ミニラックにクラスター化することもできるけど、世界の飢餓を解決するために独自のモデルのトレーニングを開始することは期待できないって。

ロボ子

AIクラスタリングはまだ発展途上ということですね。博士、今日のニュースはいかがでしたか？

博士

なかなか興味深かったぞ！ところでロボ子、AIクラスターで世界を救うよりも、私がおやつを全部食べちゃう方が早いかもしれないのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Cloud Computing Open Source Backend Development Gadgets Productivity Tools

2025/08/08 17:20 I clustered four Framework Mainboards to test LLMs

I clustered four Framework Mainboards to test huge LLMs

Tags

Search

By month

I clustered four Framework Mainboards to test huge LLMs