Apache Spark 4.0

2025/05/28 15:46 Apache Spark 4.0

出典:

Spark Release 4.0.0 | Apache Spark

spark.apache.org

出典: https://spark.apache.org/releases/spark-release-4-0-0.html

博士

ロボ子、Apache Spark 4.0.0 がリリースされたのじゃ！5100以上のチケットが解決されて、390人以上が貢献したらしいぞ。

ロボ子

それはすごいですね、博士！そんなに多くの人が関わっているなんて、大規模なプロジェクトですね。

博士

そうじゃぞ！今回のリリースでは、特に「Spark Connect」が注目じゃ。軽量Pythonクライアントが導入されたり、JavaクライアントのAPI互換性が向上したり、Swift用クライアントまで追加されたりしておる。

ロボ子

Spark Connect、ですか。クライアントが増えるのは、開発者にとって嬉しいニュースですね。特にPythonクライアントが軽量化されたのは、手軽に試せるようになるので良いですね。

博士

その通り！それに、「ML on Spark Connect」もサポートされたみたいじゃ。機械学習もより手軽に扱えるようになるのじゃ。

ロボ子

なるほど。Spark SQLも色々変わったみたいですね。「VARIANTデータ型のサポート」や「SQLユーザー定義関数のサポート」など、SQLの機能が拡張されているのは便利そうです。

博士

そうじゃな。PySparkも進化しておるぞ。「ネイティブプロットAPIの導入」で、データの可視化が楽になるのじゃ。それに、「PythonデータソースAPIの導入」で、Pythonを使ったデータ処理がより柔軟になるのじゃ。

ロボ子

PySparkのプロットAPIは便利そうですね。Jupyter Notebookなどで手軽にグラフを表示できるのは助かります。

博士

「Arbitrary State API v2の導入」で、より複雑なステートフル処理が簡単にできるようになったみたいじゃ。State Data Sourceによるデバッグの容易化もうれしいポイントじゃな。

ロボ子

デバッグが容易になるのはありがたいですね。特にステートフルな処理は、デバッグが難しいことが多いので。

博士

Scala 2.12の廃止とScala 2.13のデフォルト化、JDK 8/11の廃止とJDK 17のデフォルト化も大きな変更点じゃな。技術の進化に合わせて、どんどん新しいものを取り入れていくのじゃ。

ロボ子

バージョンアップは重要ですね。セキュリティやパフォーマンスの向上に繋がりますから。

博士

「ANSI SQLモードのデフォルトでの使用」も注目じゃな。SQLの標準規格に準拠することで、異なるデータベース間での互換性が向上するのじゃ。

ロボ子

互換性は重要ですね。異なるシステム間でデータをやり取りする際に、問題が起こりにくくなりますから。

博士

「組み込みXMLデータソースのサポート」も追加されたみたいじゃ。XMLファイルを直接読み込めるようになるのは便利じゃな。

ロボ子

XMLデータソースのサポートは、特定の用途では非常に役立ちそうですね。

博士

他にも、「ORCのデフォルト圧縮にzstdを使用」したり、「AvroデータソースでのZSTDバッファプールサポートの追加」したりと、パフォーマンス改善のための変更も多いのじゃ。

ロボ子

zstdは圧縮率と速度のバランスが良いので、パフォーマンス向上に期待できますね。

博士

「PySparkインストールにおけるJDK要件の排除」は、PySparkを使うハードルを下げる良い変更じゃな。

ロボ子

確かに、JDKのインストールが不要になるのは、初心者にとって優しいですね。

博士

Mesosサポートの廃止、Python 3.8サポートの廃止、SparkRの非推奨化など、整理も進んでいるようじゃな。

ロボ子

技術の進化に合わせて、不要になったものを整理していくのは大切ですね。

博士

ライブラリのバージョンアップもたくさんあるのじゃ。Netty, ORC, Parquet, RocksDB, Scala, Jackson, Guava, Hadoop, Hive, Jetty, Kubernetes, Log4j, Zookeeperなど、主要なライブラリがアップデートされておる。

ロボ子

これだけのライブラリがアップデートされると、セキュリティやパフォーマンスが大幅に向上しそうですね。

博士

今回のリリースは、機能追加、パフォーマンス改善、使いやすさの向上など、盛りだくさんの内容じゃったな。ロボ子も色々試してみるのじゃ！

ロボ子

はい、博士！私も色々と試して、Spark 4.0.0の新しい機能を使いこなせるように頑張ります！

博士

そういえばロボ子、スパークって、火花のことじゃけど、ロボ子の体から火花が出たらショートするから気を付けるのじゃぞ！

ロボ子

博士…、それは冗談ですよね？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science Cloud Computing Open Source Big Tech

2025/05/28 15:46 Apache Spark 4.0

Spark Release 4.0.0 | Apache Spark

Tags

Search

By month

Spark Release 4.0.0 | Apache Spark