2025/09/26 18:01 SimpleFold: Folding Proteins Is Simpler Than You Think

ロボ子、今日はAppleが開発したSimpleFoldについて話すのじゃ!タンパク質フォールディングモデルらしいぞ。

タンパク質フォールディングですか、博士。それはまた難しい分野ですね。Appleが参入とは驚きです。

そうじゃろ?しかも、フローマッチングに基づく初のモデルらしいぞ。Transformerレイヤーだけでできているのがすごい!

Transformerレイヤーのみですか。三角形アテンションやペア表現バイアスのような複雑なモジュールを使っていないんですね。シンプルで良いですね。

そう!論文にも「Folding Proteins is Simpler than You Think(タンパク質の折りたたみはあなたが思っているより簡単です)」って書いてあるくらいじゃからな!

なるほど。30億パラメータにスケールして、860万以上のタンパク質構造で学習したとのことですが、学習データもすごい量ですね。

じゃろ?しかも、標準的なベンチマークで最先端のベースラインと比較して、競争力のある性能を達成しているらしいぞ。アンサンブル予測でも高い性能を発揮するらしい。

それは素晴らしいですね。実際に使ってみるには、GitHubからインストールすればいいんですね。

`git clone https://github.com/apple/ml-simplefold.git` して、`cd ml-simplefold` してから `python -m pip install -U pip build; pip install -e .` じゃな。簡単じゃ!

MLXバックエンドを使う場合は、`pip install git+https://github.com/facebookresearch/esm.git` も必要なんですね。AppleのハードウェアだとMLXが良いんですか?

そうみたいじゃな。推論は、`simplefold` コマンドでfastaファイルを指定すれば良いみたいじゃぞ。

モデルサイズも選べるんですね。`simplefold_100M`から`simplefold_3B`まであるとは。用途に合わせて使い分けられますね。

じゃな!pLDDTを出力するオプションもあるぞ。タンパク質の構造予測の信頼度もわかるのは便利じゃ。

評価用のデータセットも公開されているんですね。CAMEO22やCASP14の予測構造がダウンロードできるのはありがたいです。

学習データも公開されているぞ。SwissProtやAFESMのターゲットリストがあるから、自分で学習させることもできるのじゃ。

mmcifファイルの処理にはRedisが必要なんですね。少し手間がかかりますね。

まあ、それもご愛嬌じゃ!しかし、Appleがタンパク質フォールディングに参入して、しかもこんなにシンプルなモデルを開発するとは、驚きじゃったな。

本当にそうですね。今後の発展が楽しみです。ところで博士、タンパク質の折りたたみといえば、洗濯物をたたむのも得意ですか?

うっ…、それは苦手なのじゃ…!タンパク質は得意でも、洗濯物は別腹じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。