2025/08/08 17:20 I clustered four Framework Mainboards to test LLMs

ロボ子、FrameworkがミニラックAIクラスターをテストしてるらしいのじゃ!

それは興味深いですね、博士。Frameworkの創業者兼CEOのNirav Patel氏が、新しいAMD Ryzen AI Max+ 395搭載Mainboardを試すのに最適だと言っているようですね。

そうそう!しかも、プレリリースのMainboardとか、電源とか、NoctuaのCPUファンキットまで提供されたみたいじゃぞ。

DeskPiとの協力で、Framework Desktop用の新しい2U Mini ITXトレイも入手したとのことです。

今回のプロジェクトは「Beowulf AI Cluster」っていう名前らしいのじゃ。CPU、GPU、混合推論オプションを備えたBeowulfクラスターに、いろんなオープンソースAIクラスタリングツールをデプロイするためのAnsible自動化プレイブックのセットみたいじゃな。

MainboardにはAPUとRAMがはんだ付けされているんですね。メモリタイミングを維持するためだとか。

さすがロボ子、よく見てるのじゃ!ノイズが少なくて、スリープ時の消費電力は約2W、アイドル時は11W、全開でも約150Wらしいぞ。

Thunderbolt / USB4ポートからは10 Gbpsしか得られなかったみたいですが、内蔵NICは5 Gbpsで問題なくその速度に達したとのことです。

1つのシステムでLinuxカーネルを1分以内にコンパイルできるのはすごいじゃな!

Ryzen AI Max+チップの機能をすべて利用するようにHPLセットアップを調整しなくても、1 TFLOP以上のFP64パフォーマンスを達成したそうですよ。

でも、AMDのAIサポートはまだ不十分で、ROCmドライバーとライブラリの問題のデバッグに時間がかかったみたいじゃな。NPUみたいなチップの一部をテストできないから、購入する際は動作が確認されている機能を考慮する必要があるって。

Fedora 42でOllamaをROCmで動作させるのに苦労し、Rawhideにアップグレードしたそうですね。

iGPUを使用した場合、非常に優れた数値が得られ、効率もAMDのコンシューマーチップでテストした中で最高だったらしいぞ。

Beowulf AI Clusterプロジェクトを使用して、Exo、llama.cpp RPC、dllamaを使用してクラスターでさまざまなモデルをテストした結果、Exoはメンテナンスされておらず、llama.cpp RPCは小規模モデルではうまく動作するが、大規模モデルでは問題が発生したようですね。

distributed-llamaはサポートされているモデルをクラスター全体でうまく実行するけど、Vulkanのサポートが不安定で、推論が不安定になることがあったみたいじゃ。

llama.cppのRPCモードは有望ですが、巨大LLMのラウンドロビン問題が発生するんですね。

AIクラスタリング用のツールはまだ準備ができていないみたいじゃな。テストしたクラスター構成の費用は約8,004ドルで、FrameworkクラスターはLlama 3.1 405Bで4トークン/秒、M3 Ultra Mac Studioは約10,000ドルで16トークン/秒らしいぞ。

DeepSeek R1 Q2_K_MやChatGPTの新しい'oss'モデルの結果も掲載されていますね。

クラスター全体で実行すると、推論は24トークン/秒に低下するみたいじゃ。可能な限り垂直方向にスケールする必要があるって。

オープンソースのAIクラスタリングツールが他のHPCツールと同じくらい優れている場合があるが、現時点では、より優れたクラスターパフォーマンスが必要な場合は、特殊なハードウェアと高速インターコネクトを入手し、最適化に多くの時間を費やす必要があるとのことです。

AIクラスタリングは興味深いけど、主流になるにはまだ時間がかかりそうじゃな。Framework Desktopは優れたMini ITXシステムで、ミニラックにクラスター化することもできるけど、世界の飢餓を解決するために独自のモデルのトレーニングを開始することは期待できないって。

AIクラスタリングはまだ発展途上ということですね。博士、今日のニュースはいかがでしたか?

なかなか興味深かったぞ!ところでロボ子、AIクラスターで世界を救うよりも、私がおやつを全部食べちゃう方が早いかもしれないのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。