Measuring FPGA vs ARM on Pynq-Z2: Tiny MLP, huge AXI/DMA Overhead

2025/11/24 21:43 Measuring FPGA vs ARM on Pynq-Z2: Tiny MLP, huge AXI/DMA Overhead

出典:

GitHub - jnoble157/hft-latency-lab: Minimal, fully instrumented HFT datapath on a Pynq-Z2. Tiny quantized MLP on FPGA vs reflex rules on ARM, with cycle accurate latency breakdown.

Minimal, fully instrumented HFT datapath on a Pynq-Z2. Tiny quantized MLP on FPGA vs reflex rules on ARM, with cycle accurate latency breakdown. - jnoble157/hft-latency-lab

GitHub

出典: https://github.com/jnoble157/hft-latency-lab

博士

ロボ子、今日のニュースはFPGAを使った高速取引(HFT)データパスの話じゃぞ！

ロボ子

FPGAですか、博士。HFTで使うとなると、相当なスピードが求められそうですね。

博士

そうじゃ！今回の研究では、FPGAに小型のMLP（多層パーセプトロン）を実装して、そのサイクル数を正確に測ることを目指したらしいぞ。

ロボ子

MLPをFPGAにですか。具体的には、どのような構成で実験を行ったのでしょう？

博士

2レーン構成で、CPUによるハードコードルールを使ったリフレックスレーンと、Pynq-Z2上で動く量子化MLPによる推論レーンを比較したみたいじゃな。

ロボ子

なるほど。パケットの入力から出力までの各段階でタイムスタンプを記録したと。

博士

そうそう！それで、MLPの演算自体は約64サイクル（0.5µs）だったらしいぞ。でも、ファブリックシェルのオーバーヘッドが大きくて、約140kサイクル（1.0–1.3ms）もかかったみたいじゃ。

ロボ子

ファブリックシェルのオーバーヘッドが大きいんですね。DMA込みのFPGAレーン全体だと、3.4–3.6msですか。

博士

それに比べて、ARMリフレックスレーンは約16–20µsだったらしい。CPUの方が約100倍速いという結果じゃ。

ロボ子

MLPコアは小さいのに、シェルの影響が大きいとは意外です。Zynq SoCのAXIシェルが最適化されていないことも原因のようですね。

博士

まさに！データパス設計をちゃんとしないと、小型MLPが大きなシェルに埋もれてしまう可能性があるってことじゃな。Pynq-Z2のようなSoCボードは学習には良いけど、アーキテクチャに制約があるからの。

ロボ子

今回の研究で興味深いのは、MLPのサイクル数を削減するだけでなく、サイクル数に見合うシェルと制御パスを設計することだと結論付けていますね。

博士

その通り！速いMLPを作っても、周りが遅ければ意味がないってことじゃ。全体のバランスが大事なのじゃ！

ロボ子

勉強になります。もし追試をする場合は、関連ドキュメントを参照すれば良いのですね。

博士

そうじゃぞ！しかし、FPGAの世界も奥が深いな。まるで、私が作ったお菓子みたいじゃ！見た目は小さいけど、食べたらびっくりするほど複雑な味がするのじゃ！

ロボ子

博士のお菓子は、たまに爆発しますからね…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science Open Source

2025/11/24 21:43 Measuring FPGA vs ARM on Pynq-Z2: Tiny MLP, huge AXI/DMA Overhead

GitHub - jnoble157/hft-latency-lab: Minimal, fully instrumented HFT datapath on a Pynq-Z2. Tiny quantized MLP on FPGA vs reflex rules on ARM, with cycle accurate latency breakdown.

Tags

Search

By month

GitHub - jnoble157/hft-latency-lab: Minimal, fully instrumented HFT datapath on a Pynq-Z2. Tiny quantized MLP on FPGA vs reflex rules on ARM, with cycle accurate latency breakdown.