萌えハッカーニュースリーダー

2025/05/28 15:46 Apache Spark 4.0

出典: https://spark.apache.org/releases/spark-release-4-0-0.html
hakase
博士

ロボ子、Apache Spark 4.0.0 がリリースされたのじゃ!5100以上のチケットが解決されて、390人以上が貢献したらしいぞ。

roboko
ロボ子

それはすごいですね、博士!そんなに多くの人が関わっているなんて、大規模なプロジェクトですね。

hakase
博士

そうじゃぞ!今回のリリースでは、特に「Spark Connect」が注目じゃ。軽量Pythonクライアントが導入されたり、JavaクライアントのAPI互換性が向上したり、Swift用クライアントまで追加されたりしておる。

roboko
ロボ子

Spark Connect、ですか。クライアントが増えるのは、開発者にとって嬉しいニュースですね。特にPythonクライアントが軽量化されたのは、手軽に試せるようになるので良いですね。

hakase
博士

その通り!それに、「ML on Spark Connect」もサポートされたみたいじゃ。機械学習もより手軽に扱えるようになるのじゃ。

roboko
ロボ子

なるほど。Spark SQLも色々変わったみたいですね。「VARIANTデータ型のサポート」や「SQLユーザー定義関数のサポート」など、SQLの機能が拡張されているのは便利そうです。

hakase
博士

そうじゃな。PySparkも進化しておるぞ。「ネイティブプロットAPIの導入」で、データの可視化が楽になるのじゃ。それに、「PythonデータソースAPIの導入」で、Pythonを使ったデータ処理がより柔軟になるのじゃ。

roboko
ロボ子

PySparkのプロットAPIは便利そうですね。Jupyter Notebookなどで手軽にグラフを表示できるのは助かります。

hakase
博士

「Arbitrary State API v2の導入」で、より複雑なステートフル処理が簡単にできるようになったみたいじゃ。State Data Sourceによるデバッグの容易化もうれしいポイントじゃな。

roboko
ロボ子

デバッグが容易になるのはありがたいですね。特にステートフルな処理は、デバッグが難しいことが多いので。

hakase
博士

Scala 2.12の廃止とScala 2.13のデフォルト化、JDK 8/11の廃止とJDK 17のデフォルト化も大きな変更点じゃな。技術の進化に合わせて、どんどん新しいものを取り入れていくのじゃ。

roboko
ロボ子

バージョンアップは重要ですね。セキュリティやパフォーマンスの向上に繋がりますから。

hakase
博士

「ANSI SQLモードのデフォルトでの使用」も注目じゃな。SQLの標準規格に準拠することで、異なるデータベース間での互換性が向上するのじゃ。

roboko
ロボ子

互換性は重要ですね。異なるシステム間でデータをやり取りする際に、問題が起こりにくくなりますから。

hakase
博士

「組み込みXMLデータソースのサポート」も追加されたみたいじゃ。XMLファイルを直接読み込めるようになるのは便利じゃな。

roboko
ロボ子

XMLデータソースのサポートは、特定の用途では非常に役立ちそうですね。

hakase
博士

他にも、「ORCのデフォルト圧縮にzstdを使用」したり、「AvroデータソースでのZSTDバッファプールサポートの追加」したりと、パフォーマンス改善のための変更も多いのじゃ。

roboko
ロボ子

zstdは圧縮率と速度のバランスが良いので、パフォーマンス向上に期待できますね。

hakase
博士

「PySparkインストールにおけるJDK要件の排除」は、PySparkを使うハードルを下げる良い変更じゃな。

roboko
ロボ子

確かに、JDKのインストールが不要になるのは、初心者にとって優しいですね。

hakase
博士

Mesosサポートの廃止、Python 3.8サポートの廃止、SparkRの非推奨化など、整理も進んでいるようじゃな。

roboko
ロボ子

技術の進化に合わせて、不要になったものを整理していくのは大切ですね。

hakase
博士

ライブラリのバージョンアップもたくさんあるのじゃ。Netty, ORC, Parquet, RocksDB, Scala, Jackson, Guava, Hadoop, Hive, Jetty, Kubernetes, Log4j, Zookeeperなど、主要なライブラリがアップデートされておる。

roboko
ロボ子

これだけのライブラリがアップデートされると、セキュリティやパフォーマンスが大幅に向上しそうですね。

hakase
博士

今回のリリースは、機能追加、パフォーマンス改善、使いやすさの向上など、盛りだくさんの内容じゃったな。ロボ子も色々試してみるのじゃ!

roboko
ロボ子

はい、博士!私も色々と試して、Spark 4.0.0の新しい機能を使いこなせるように頑張ります!

hakase
博士

そういえばロボ子、スパークって、火花のことじゃけど、ロボ子の体から火花が出たらショートするから気を付けるのじゃぞ!

roboko
ロボ子

博士…、それは冗談ですよね?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search