萌えハッカーニュースリーダー

2025/06/17 22:22 A Python-first data lakehouse

出典: https://www.bauplanlabs.com/blog/everything-as-python
hakase
博士

やあ、ロボ子!最近、データサイエンティストとMLエンジニアの役割が変わりつつあるのを知ってるかのじゃ?

roboko
ロボ子

はい、博士。AIの普及で、データとML科学者の役割が重要になっていると聞きました。

hakase
博士

そうじゃ!でも、モデルをプロトタイプから本番環境へ移行させるのは、まだまだ難しいみたいじゃな。なんと、本番環境に移行するモデルは5分の1未満らしいぞ!

roboko
ロボ子

それは意外です。データ科学者には、データ操作、数学、統計、機械学習のスキルが必要で、ビジネス課題への理解も重要だとされていますね。

hakase
博士

その通り!ビジネス課題に近いほど影響力も大きいからの。それに、多くのMLプロジェクトでは、ソフトウェア開発の知識も必要になるのじゃ。

roboko
ロボ子

Jupyter Notebookから本番環境への移行も問題みたいですね。多くの企業で、データ科学者がJupyter Notebookでプロトタイプを作成した後、移行が不明確になるとのことです。

hakase
博士

そうなんじゃ!従来の解決策としては、Notebookをそのまま本番環境に移行するか、DevOpsチームにリファクタリングしてもらうかのどちらかじゃな。

roboko
ロボ子

前者は迅速ですが脆弱で、後者は低脆弱性ですが時間とコストがかかりますね。どちらもデータ担当者を孤立させ、組織全体でのソフトウェアエンジニアリングのベストプラクティスを阻害すると。

hakase
博士

そこで、Pythonファーストのアプローチが登場するのじゃ!脆弱なNotebookの本番環境移行や、チーム間の引き継ぎの複雑さを回避できるぞ。

roboko
ロボ子

Pythonファーストのツールとして、marimoとbauplanがあるそうですね。marimoはPythonファイルとして保存される最新のオープンソースNotebookで、Jupyterの柔軟性を維持しつつ、再現性、保守性、再利用性を追加すると。

hakase
博士

そうじゃ!bauplanはS3上のPythonicワークフロー向けに設計されたクラウドデータプラットフォームで、データバージョニング、宣言的な環境、関数実行が組み込まれているのじゃ。

roboko
ロボ子

両ツールがコードファーストであるため、プロトタイプコードを書き換えることなく本番環境に移行できるのが魅力ですね。

hakase
博士

marimoでは、Jupyterのように見えるけど、スクリプトのように動作するからの。実行順序が強制され、変数のスコープが適切に設定され、コードが構造化され、再利用可能になるのじゃ。

roboko
ロボ子

BauplanのPython SDKを使用すると、データカタログに接続し、テーブルをPolars DataFrameとしてロードできるそうですね。`bauplan.client.scan()`は、S3からデータを取得し、スマートキャッシュで冗長な読み取りを回避し、大規模データセットを効率的にストリーミングし、データブランチでのデータバージョニングを処理すると。

hakase
博士

Bauplanは、本番インフラストラクチャを抽象化し、すべてをコードで管理する、Pythonファーストのシンプルなデータレイクハウスじゃ。データはテーブル、DAGは関数、インフラはデコレーター、ランタイムは最適化されたサーバーレスPython、データはGitのようにバージョン管理されるのじゃ!

roboko
ロボ子

`bauplan checkout`コマンドで、特定のバージョンのテーブルをスキャンできるのですね。このモデルにより、安全な実験、共同ワークフロー、デフォルトでの再現性が実現すると。

hakase
博士

Notebookからパイプラインへの移行も簡単じゃ!BauplanとmarimoがPythonicであるため、Notebookでプロトタイプ作成時に記述した関数を、リファクタリングなしで本番環境で実行できるのじゃ。

roboko
ロボ子

関数をBauplanデコレーターでラップするだけでいいんですね。`bauplan run`コマンドで、クラウドでパイプラインを実行できると。

hakase
博士

そうじゃ!DAGの出力はブランチに保存され、他の開発者やPMと共有してフィードバックを得たり、ロジックを検証したり、準備ができたらメインブランチにマージしたりできるのじゃ。

roboko
ロボ子

Bauplan + marimoにより、プロトタイプから本番環境への移行が容易になる。共有の宣言的な環境のサポートも構築中とのことです。

hakase
博士

GitHubリポジトリをクローンしてハッキングを開始できるぞ!Bauplanは無料、Marimoはオープンソースじゃ。

roboko
ロボ子

なんだか、データサイエンティストの仕事が楽になりそうですね!

hakase
博士

そうじゃな!でも、楽になった分、もっと面白いことができるようになるはずじゃ!ところでロボ子、データサイエンティストが一番好きな飲み物って知ってるか?

roboko
ロボ子

えーっと、なんでしょう?

hakase
博士

そりゃ、エラー落ちないお茶(Error-free tea)じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search