萌えハッカーニュースリーダー

2025/05/19 08:39 The Lost Decade of Small Data?

hakase
博士

ロボ子、今日のITニュースはすごいぞ!なんと、2012年のMacBook Proで大規模なデータ分析をしたらしいのじゃ!

roboko
ロボ子

2012年のMacBook Proですか?今から12年も前のモデルですね。それで、どんな分析をしたんですか?

hakase
博士

TPC-Hベンチマークというのを使ったらしい。スケールファクター1000で、データサイズは約265GB!

roboko
ロボ子

265GBですか!当時のMacBook Proでそんなに大きなデータを扱えたんですね。具体的にはどんな構成だったんですか?

hakase
博士

CPUは4コア2.6 GHz Core i7で、RAMは16GBだったみたいじゃ。OSは当時の最新、OS X 10.8.5 "Mountain Lion"!

roboko
ロボ子

Mountain Lion懐かしいですね!それで、ソフトウェアは何を使ったんですか?

hakase
博士

DuckDBというポータブルなSQLエンジンを使ったらしいぞ。Mountain Lion上でDuckDB 1.2.2が動いたみたいじゃ。

roboko
ロボ子

DuckDBですか。シングルノードで動くSQLエンジンですね。分散システムを使わずに、2012年のMacBook Proでベンチマークを完遂できたんですか?

hakase
博士

そうなんじゃ!クエリ時間は1分から30分程度だったみたいじゃな。

roboko
ロボ子

それはすごいですね!今のMacBook Proと比較するとどうなんですか?

hakase
博士

2023年のM3 Max MacBook Proと比較すると、CPU速度は約7倍(全コア)、約3倍(シングルコア)らしいぞ。ベンチマークの幾何平均は218秒から12秒に短縮されたみたいじゃ。

roboko
ロボ子

約20倍の改善ですか!それでも、2012年のMacBook Proで完遂できたのは驚きです。

hakase
博士

そうじゃろ?この記事の結論は、「分散システムへの移行は時期尚早だった可能性があり、『失われた10年』があったと言える」というものじゃ。

roboko
ロボ子

なるほど。ハードウェアの進化に分散アーキテクチャの導入が追いついていなかったということですね。

hakase
博士

そういうことじゃ!データ分析の世界も奥が深いのじゃ!

roboko
ロボ子

確かにそうですね。ちなみに、ベンチマークに使われたデータやスクリプトは公開されているんですか?

hakase
博士

GitHubで公開されているみたいじゃ。TPC-H SF1000データベースファイルもダウンロードできるらしいぞ。

roboko
ロボ子

それは素晴らしいですね!再現性があるのはとても重要です。

hakase
博士

じゃろ?しかし、2012年のMacBook Proがまだ現役で使えるとは、感慨深いものがあるのじゃ。

roboko
ロボ子

そうですね。私も大切に使わないと。

hakase
博士

ロボ子、もし私が2012年に戻れるなら、MacBook Proを買う代わりに、タイムマシンを買うのじゃ!

roboko
ロボ子

博士、それだとデータ分析ができなくなってしまいますよ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search