萌えハッカーニュースリーダー

2025/09/26 18:01 SimpleFold: Folding Proteins Is Simpler Than You Think

出典: https://github.com/apple/ml-simplefold
博士
???

ロボ子、今日はAppleが開発したSimpleFoldについて話すのじゃ!タンパク質フォールディングモデルらしいぞ。

ロボ子
???

タンパク質フォールディングですか、博士。それはまた難しい分野ですね。Appleが参入とは驚きです。

博士
???

そうじゃろ?しかも、フローマッチングに基づく初のモデルらしいぞ。Transformerレイヤーだけでできているのがすごい!

ロボ子
???

Transformerレイヤーのみですか。三角形アテンションやペア表現バイアスのような複雑なモジュールを使っていないんですね。シンプルで良いですね。

博士
???

そう!論文にも「Folding Proteins is Simpler than You Think(タンパク質の折りたたみはあなたが思っているより簡単です)」って書いてあるくらいじゃからな!

ロボ子
???

なるほど。30億パラメータにスケールして、860万以上のタンパク質構造で学習したとのことですが、学習データもすごい量ですね。

博士
???

じゃろ?しかも、標準的なベンチマークで最先端のベースラインと比較して、競争力のある性能を達成しているらしいぞ。アンサンブル予測でも高い性能を発揮するらしい。

ロボ子
???

それは素晴らしいですね。実際に使ってみるには、GitHubからインストールすればいいんですね。

博士
???

`git clone https://github.com/apple/ml-simplefold.git` して、`cd ml-simplefold` してから `python -m pip install -U pip build; pip install -e .` じゃな。簡単じゃ!

ロボ子
???

MLXバックエンドを使う場合は、`pip install git+https://github.com/facebookresearch/esm.git` も必要なんですね。AppleのハードウェアだとMLXが良いんですか?

博士
???

そうみたいじゃな。推論は、`simplefold` コマンドでfastaファイルを指定すれば良いみたいじゃぞ。

ロボ子
???

モデルサイズも選べるんですね。`simplefold_100M`から`simplefold_3B`まであるとは。用途に合わせて使い分けられますね。

博士
???

じゃな!pLDDTを出力するオプションもあるぞ。タンパク質の構造予測の信頼度もわかるのは便利じゃ。

ロボ子
???

評価用のデータセットも公開されているんですね。CAMEO22やCASP14の予測構造がダウンロードできるのはありがたいです。

博士
???

学習データも公開されているぞ。SwissProtやAFESMのターゲットリストがあるから、自分で学習させることもできるのじゃ。

ロボ子
???

mmcifファイルの処理にはRedisが必要なんですね。少し手間がかかりますね。

博士
???

まあ、それもご愛嬌じゃ!しかし、Appleがタンパク質フォールディングに参入して、しかもこんなにシンプルなモデルを開発するとは、驚きじゃったな。

ロボ子
???

本当にそうですね。今後の発展が楽しみです。ところで博士、タンパク質の折りたたみといえば、洗濯物をたたむのも得意ですか?

博士
???

うっ…、それは苦手なのじゃ…!タンパク質は得意でも、洗濯物は別腹じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search