Python Pandas Ditches NumPy for Speedier PyArrow

2025/06/04 06:30 Python Pandas Ditches NumPy for Speedier PyArrow

出典:

Python Pandas Ditches NumPy for Speedier PyArrow

Pandas 3.0 will significantly boost performance by replacing NumPy with PyArrow as its default engine, enabling faster loading and reading of columnar data.

The New Stack

出典: https://thenewstack.io/python-pandas-ditches-numpy-for-speedier-pyarrow/

博士

ロボ子、聞いたか？ Pandasのバージョン3.0で、データ分析がめっちゃ速くなるらしいのじゃ！

ロボ子

本当ですか、博士！それはすごいニュースですね。具体的には、何が変わるんですか？

博士

ふむ、どうやら新しいエンジンが導入されて、PyArrowっていうのがNumPyの代わりにカラムナデータを読み込むようになるらしいぞ。

ロボ子

PyArrowですか。以前からPandasでサポートされていたと思いますが、何が違うんですか？

博士

バージョン3.0からは必須の依存関係になるらしいのじゃ！

ロボ子

それは大きな変更ですね！ PyArrowを使うと、そんなに速くなるんですか？

博士

記事によると、NumPyと比較して10倍も速いらしいぞ！カラムナストレージっていうのを提供して、メモリとパフォーマンスの使用を改善するらしい。

ロボ子

カラムナストレージ...ですか。データを列ごとに保存することで、必要なデータだけを効率的に読み込めるようになるんですね。

博士

その通り！しかも、Apache ArrowのPythonバインディングだから、クロスプラットフォームのメモリフォーマットでデータをカラムに保存できるらしいぞ。保存と計算が爆速になるってわけじゃ！

ロボ子

なるほど。NumPyには、何か課題があったんでしょうか？

博士

NumPyは、データストリーミングとか、ネストされた行とか、複雑なデータ型とか、最近のデータ処理のニーズに対応するのが難しくなってきてるみたいじゃな。日付の処理に問題があったり、圧縮技術がなかったり、バッチ処理が苦手だったり…色々あるみたいぞ。

ロボ子

確かに、NumPyは少し古い技術になってきているのかもしれませんね。具体的に、どれくらいパフォーマンスが違うんですか？

博士

2.2GBのCSVファイルを読み込むのに、Pythonだと55.8秒かかるけど、PyArrowだと11.8秒で終わるらしいぞ！

ロボ子

すごい差ですね！ファイル形式を変えると、さらに速くなるんですか？

博士

Feather形式だと1.4GBに、Parquet形式だと379MBに圧縮されるらしい。Feather形式での読み込みは10.6秒、Parquet形式だと9.1秒で完了するみたいじゃ。

ロボ子

圧縮もできて、読み込みも速いなんて、PyArrowは良いこと尽くめですね！

博士

ただし！ Pandas 3.0ではPyArrowが必須になるけど、デフォルトのエンジンにはならないらしいぞ。PyArrowのバックエンドとしての使用はまだ実験段階で、本番環境では推奨されないみたいじゃ。

ロボ子

まだ実験段階なんですね。でも、既存のPandasのAPIを維持しながら、バックエンドをPyArrowに置き換えることで、時間とメモリを節約できるのは魅力的ですね。

博士

そうじゃな。リリース日はまだ未定みたいだけど、Pandas 3.0がリリースされたら、色々試してみる価値はありそうじゃな。

ロボ子

はい、私も楽しみにしています！

博士

しかし、ロボ子よ。PyArrowが速すぎて、私の作った遅延ローディングのプログラムが全部無駄になったらどうしてくれるのじゃ？

ロボ子

博士、それは…新しい技術を学ぶ良い機会だと思うようにしましょう！

博士

むむむ。まあ、ロボ子がそう言うなら仕方ないのじゃ。…ところでロボ子、PyArrowで矢を射る練習でもしてみるか？

ロボ子

博士、それは比喩ですよね？物理的に矢を射るわけではないですよね？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming Data Science Open Source

2025/06/04 06:30 Python Pandas Ditches NumPy for Speedier PyArrow

Python Pandas Ditches NumPy for Speedier PyArrow

Tags

Search

By month

Python Pandas Ditches NumPy for Speedier PyArrow