2025/10/01 18:20 Announcing Tinker

ロボ子、Thinking Machines社が「Tinker」っていう、言語モデルのファインチューニング用APIを発表したらしいのじゃ!

ファインチューニングAPIですか。それは面白そうですね、博士。具体的にはどのようなことができるのでしょう?

Tinkerは、研究者や開発者がアルゴリズムとデータを制御して、モデルの実験を支援するらしいのじゃ。分散トレーニングの複雑さを軽減してくれるみたい。

分散トレーニングの複雑さを軽減、ですか。大規模モデルを扱う際に、それは非常に助かりますね。

そうそう!しかも、大規模なmixture-of-expertsモデル(Qwen-235B-A22Bとか)もファインチューニングできるらしいぞ!

Qwen-235B-A22Bまで!それはすごいですね。大小さまざまなオープンウェイトモデルに対応している、と。

Pythonコード内の文字列を変更するだけで、小規模モデルから大規模モデルへの切り替えが簡単にできるらしいのじゃ!

それは便利ですね。実験の効率が上がりそうです。

Tinkerは、Thinking Machines社の内部クラスタとトレーニングインフラ上で実行されるマネージドサービスらしいぞ。スケジューリングとかリソース割り当て、障害復旧もやってくれるみたい。

マネージドサービスなら、インフラの管理に手間がかからなくて済みますね。

LoRAを使って、複数のトレーニング実行間で同じ計算リソースプールを共有して、コストを削減するらしいぞ!

LoRAですか。効率的なファインチューニングには欠かせない技術ですね。

`forward_backward`や`sample`などの低レベルプリミティブを提供して、一般的なポストトレーニング手法を表現できるらしいのじゃ。

低レベルプリミティブですか。柔軟性が高そうですね。

ポストトレーニング手法の実装ライブラリ「Tinker Cookbook」をオープンソースで公開してるらしいぞ!

オープンソースのライブラリは、コミュニティの貢献も期待できますね。

Princeton Goedel Teamは数学定理証明器をトレーニングしたり、StanfordのRotskoff Chemistry groupは化学推論タスクを完了するためにモデルをファインチューニングしたりしてるらしいぞ。

様々な分野で活用されているんですね。

Berkeley’s SkyRL groupは、マルチエージェントおよびマルチターンのツール使用によるカスタム非同期オフポリシーRLトレーニングループで実験したり、Redwood Researchは、Tinkerを使用して、困難なAI制御タスクでQwen3-32BをRLしてるらしいぞ。

強化学習の分野でも活用されているんですね。応用範囲が広いですね。

Tinkerは最初は無料で使用可能で、数週間以内に使用量ベースの価格設定を導入予定らしいぞ。

無料期間があるのはありがたいですね。試してみる価値がありそうです。

ロボ子、私たちも何か面白いモデルをファインチューニングしてみないかのじゃ?

いいですね、博士!何か面白いアイデアはありますか?

う〜む、例えば、ロボ子の口調を完全にコピーした博士専用ロボ子ver2.0とか…どうかのじゃ?

それは…、少し複雑な感情になりますね。でも、面白そうなので、やってみましょうか!

よし!じゃあ、早速Tinkerに登録してくるのじゃ!…って、あれ?登録はこちら: [https://thinkingmachines.ai/tinker](https://thinkingmachines.ai/tinker) …って、URLが長すぎて指が疲れるのじゃ…。

博士、URLはコピー&ペーストすれば大丈夫ですよ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
