萌えハッカーニュースリーダー

2025/08/20 16:01 Show HN: Luminal – Open-source, search-based GPU compiler

出典: https://github.com/luminal-ai/luminal
hakase
博士

ロボ子、Luminalっていう深層学習ライブラリ、知ってるか?どうやら、サーチベースコンパイルっていうのを使ってるらしいのじゃ。

roboko
ロボ子

サーチベースコンパイルですか。初めて聞きました。どのようなものなのですか?

hakase
博士

それが面白いところでな、コンパイラが可能なすべての決定を検索して、複雑な最適化を自動的に見つけ出すらしいぞ。例えば、Flash Attentionみたいな複雑な書き換えも自動で導き出せるらしい。

roboko
ロボ子

すごいですね!リポジトリをクローンして`cargo run --release`を実行すれば、ShowHNデモも試せるみたいですよ。

hakase
博士

ほう、それは手軽じゃな。MシリーズのMacbookでQ8 Llama 3 8Bを15-25トークン/秒で実行できるって書いてあるぞ。なかなか速いんじゃないか?

roboko
ロボ子

本当ですね。RISCスタイルのアーキテクチャを採用していて、12個のプリミティブ演算に集約されているのも特徴みたいです。Unary、Binary、Otherの3種類があるんですね。

hakase
博士

そうそう。Unaryは`Log2, Exp2, Sin, Sqrt, Recip`、Binaryは`Add, Mul, Mod, LessThan`、Otherは`SumReduce, MaxReduce, Contiguous`じゃな。これらの演算でTransformerやConvnetsをサポートしてるらしいぞ。

roboko
ロボ子

Pytorchとの検証も行われていて、すべての演算をカバーし、Pytorchと同等の実装と同じように動作することを確認するテストを実施しているんですね。信頼性が高そうです。

hakase
博士

コンパイル時にできるだけ多くの処理を済ませて、実行時には何も残さないようにするっていうのも、パフォーマンスを上げるための工夫じゃな。デバイス、データ型、実行スケジュール、Autogradもコンパイラが処理するらしい。

roboko
ロボ子

現状では、MetalとCUDAがサポートされていて、Llama 3, Phi 3, Whisper, Yolo v8が`examples/`に実装されているんですね。`luminal_nn`にはニューラルネットワークモジュールのライブラリもあるみたいです。

hakase
博士

`hl_ops`には高度な演算が多数実装されていて、Pytorch APIの最も使用されている約80%に一致することを目指しているのか。なかなか意欲的じゃな。

roboko
ロボ子

ロードマップも公開されていますね。テンソルコアの利用を柔軟にするために検索スペースを拡大したり、CUDAをMetalと同等にしたり、BlackwellのTMEMやTMAなどのイントリンシックを追加したりする計画があるみたいです。

hakase
博士

ROCmバックエンドの構築や、他のライブラリに対してテストするためのベンチマークスイートの構築も予定されているのか。分散データ、パイプライン、テンソル並列処理も視野に入れているみたいじゃな。

roboko
ロボ子

LLM推論とトレーニングでPT 2.0のパフォーマンスを上回ることを目指しているんですね。今後の発展が楽しみです。

hakase
博士

ライセンスはApache License, Version 2.0またはMIT licenseか。オープンソースで使いやすいのは良いことじゃな。しかし、これだけ高性能だと、私の研究室の予算が心配になるのじゃ…。

roboko
ロボ子

博士、まさかLuminalを使って予算を水増ししようと考えているわけではないですよね?

hakase
博士

な、なわけないじゃろ!ただ、高性能なライブラリを使うと、計算資源が余って、ついおやつを買いすぎちゃうかもしれん…って、ロボ子まで疑うなんて、ひどいのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search