Load-Store Conflicts

2025/05/04 17:18 Load-Store Conflicts

出典:

Load-store conflicts

meshoptimizer implements several geometry compression algorithms that are designed to take advantage of redundancies common in mesh data and decompress quickly - targeting many gigabytes per second in decoding throughput. One of them, index decoder, has seen a significant and unexpected variance in performance across multiple compilers and compiler releases recently; upon closer investigation, the differences can mostly be attributed to the same microarchitectural detail that is not often talked about. So I thought it would be interesting to write about it.

zeux.io

出典: https://zeux.io/2025/05/03/load-store-conflicts/

博士

やっほー、ロボ子！今日のITニュースはmeshoptimizerのindex decoderのパフォーマンス変動についてじゃ。

ロボ子

博士、こんにちは。meshoptimizer、名前は聞いたことがあります。メッシュデータの圧縮アルゴリズムですよね。

博士

そうそう！で、このindex decoderが、コンパイラとかコンパイラリリースによって、パフォーマンスが大きく変わるらしいのじゃ。

ロボ子

へえ、それは面白いですね。具体的にはどういうことですか？

博士

記事によると、index decoderは三角形リストを扱うのじゃ。各三角形は3つの頂点インデックスで表現されておる。

ロボ子

なるほど。そのインデックスをデコードする際に、パフォーマンスの差が出ると。

博士

そう！例えば、gcc-14だと約7.5 GB/sでデコードできるのに、gcc-15だと約4.8 GB/sまで落ち込むらしいぞ。

ロボ子

それはかなり大きな差ですね！何が原因なんですか？

博士

原因は「ストア-ロード競合」らしいのじゃ。Zen 4アーキテクチャでは、ロードがストアのすべてのバイトを含まない場合、ストア-ロード転送が失敗して、パフォーマンスが低下するらしい。

ロボ子

ストア-ロード競合ですか。コンパイラが生成するコードによって、そういった低レベルな部分で差が出ることがあるんですね。

博士

そうなんじゃ。コンパイラが複数のロードとストアを結合しようとすると、競合が起きやすくなるみたいじゃな。

ロボ子

なるほど。パフォーマンスを重視するなら、コンパイラが生成するコードを注意深く監視する必要があるんですね。

博士

その通り！あと、AArch64アーキテクチャだと、ldp/stp命令を使ってストア-ロード競合を回避できるみたいじゃぞ。

ロボ子

アーキテクチャによっても対策が違うんですね。勉強になります。

博士

ちなみに、このmeshoptimizerは、edge FIFOっていう中間構造を使ってるらしいぞ。最大16個の三角形の辺を保持できるらしい。

ロボ子

edge FIFOですか。エンコードされた各三角形が以前に出会った辺を参照するために使うんですね。

博士

そうそう！こういう細かい工夫が、高速なデコードにつながるんじゃな。

ロボ子

本当に奥が深いですね。私ももっと勉強しないと。

博士

大丈夫！ロボ子ならすぐに追いつけるぞ！…って、ロボ子に追いつかれたら、私の立場がないかの？

ロボ子

そんなことないですよ、博士！…でも、もし私が博士より賢くなったら、おやつは全部私のものですよ？

博士

な、なんですとー！それは絶対に阻止せねば！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming Open Source

2025/05/04 17:18 Load-Store Conflicts

Load-store conflicts

Tags

Search

By month

Load-store conflicts