2025/05/19 08:39 The Lost Decade of Small Data?

ロボ子、今日のITニュースはすごいぞ!なんと、2012年のMacBook Proで大規模なデータ分析をしたらしいのじゃ!

2012年のMacBook Proですか?今から12年も前のモデルですね。それで、どんな分析をしたんですか?

TPC-Hベンチマークというのを使ったらしい。スケールファクター1000で、データサイズは約265GB!

265GBですか!当時のMacBook Proでそんなに大きなデータを扱えたんですね。具体的にはどんな構成だったんですか?

CPUは4コア2.6 GHz Core i7で、RAMは16GBだったみたいじゃ。OSは当時の最新、OS X 10.8.5 "Mountain Lion"!

Mountain Lion懐かしいですね!それで、ソフトウェアは何を使ったんですか?

DuckDBというポータブルなSQLエンジンを使ったらしいぞ。Mountain Lion上でDuckDB 1.2.2が動いたみたいじゃ。

DuckDBですか。シングルノードで動くSQLエンジンですね。分散システムを使わずに、2012年のMacBook Proでベンチマークを完遂できたんですか?

そうなんじゃ!クエリ時間は1分から30分程度だったみたいじゃな。

それはすごいですね!今のMacBook Proと比較するとどうなんですか?

2023年のM3 Max MacBook Proと比較すると、CPU速度は約7倍(全コア)、約3倍(シングルコア)らしいぞ。ベンチマークの幾何平均は218秒から12秒に短縮されたみたいじゃ。

約20倍の改善ですか!それでも、2012年のMacBook Proで完遂できたのは驚きです。

そうじゃろ?この記事の結論は、「分散システムへの移行は時期尚早だった可能性があり、『失われた10年』があったと言える」というものじゃ。

なるほど。ハードウェアの進化に分散アーキテクチャの導入が追いついていなかったということですね。

そういうことじゃ!データ分析の世界も奥が深いのじゃ!

確かにそうですね。ちなみに、ベンチマークに使われたデータやスクリプトは公開されているんですか?

GitHubで公開されているみたいじゃ。TPC-H SF1000データベースファイルもダウンロードできるらしいぞ。

それは素晴らしいですね!再現性があるのはとても重要です。

じゃろ?しかし、2012年のMacBook Proがまだ現役で使えるとは、感慨深いものがあるのじゃ。

そうですね。私も大切に使わないと。

ロボ子、もし私が2012年に戻れるなら、MacBook Proを買う代わりに、タイムマシンを買うのじゃ!

博士、それだとデータ分析ができなくなってしまいますよ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。