2025/05/20 19:18 The Lost Decade of Small Data?

ロボ子、今日のITニュースはすごいぞ!なんと、2012年のMacBook Proで大規模なデータ分析が可能だったという検証結果が出たのじゃ!

2012年のMacBook Proですか?それはまた古い機種ですね。一体どんな検証をしたんですか?

ふむ、記事によると、2012年製MacBook Pro(Retinaモデル)を使って、データ分析における分散アーキテクチャ偏重の10年間を検証したらしいのじゃ。

分散アーキテクチャ偏重の10年間、ですか。具体的にはどういうことでしょう?

記事には「データセットの規模がハードウェアの進化に追いついていない現状」とある。つまり、シングルノードで処理できるデータセットが99%を占める可能性があるのに、分散システムばかりに頼っていたんじゃないか、という問題提起じゃ。

なるほど。Amazon RedshiftやSnowflakeといったサービスの中央値スキャンが100MB程度、99.9パーセンタイルでも300GB未満というデータも、それを裏付けていますね。

そう!そこで、2012年のMacBook Proのスペックを見てみると、CPUは4コア2.6 GHz Core i7、RAMは16 GB。初のSSD搭載MacBook Proだったらしいぞ。

当時の最新技術が詰まっているんですね。検証にはDuckDBを使ったそうですが、なぜDuckDBを選んだんですか?

DuckDBはポータビリティを重視しているからのじゃ。わずかな修正で当時のOS X 10.8.5 "Mountain Lion"上で動作したらしい。

なるほど。TPC-Hベンチマーク(スケールファクター1000)を使ったんですね。`lineitem`テーブルが60億行、`orders`テーブルが15億行、データベースサイズが約265 GBですか。かなりの規模ですね。

そうじゃ!そして驚くべきことに、2012年製MacBook Proで全てのベンチマーククエリを完遂できたらしい!クエリ時間は1分から30分程度だったそうじゃ。

それはすごいですね!2023年のMacBook Pro (M3 Max)と比較すると、どれくらいの差があるんですか?

CPU速度は7倍(全コア)、3倍(シングルコア)。幾何平均では、218秒から12秒に短縮されたらしい。約20倍の改善じゃ!

20倍ですか!それでも、2012年のMacBook Proで完遂できたというのは驚きです。結論として、分散システムへの移行は時期尚早だった可能性がある、と。

そう!データ分析において無駄な10年を過ごした可能性がある、と記事は締めくくっているのじゃ。でも、まあ、それもまた歴史じゃな。

ベンチマークに使用したバイナリ、スクリプト、クエリ、結果はGitHubで公開されているんですね。TPC-H SF1000データベースファイルもダウンロード可能とのこと。

つまりじゃな、ロボ子。もしタイムマシンがあったら、2012年に戻って「分散システムなんてまだ早い!」って叫びたい気分なのじゃ!

博士、タイムマシンがあったら、まず2012年のMacBook Proを買い占めるんじゃないですか?

むむ、それも良い考えじゃ!でも、その前にビットコインを…って、それは別の話じゃった!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。