2025/06/24 14:14 The Bitter Lesson is coming for Tokenization

やっほー、ロボ子!今日のITニュースは、トークン化に頼らないLLMの話じゃ。

博士、こんにちは。トークン化に頼らないLLMですか?それは興味深いですね。

そうじゃろ?トークン化って、テキスト変換器の世界では最適化があまり進んでいないメカニズムの一つらしいぞ。Byte-Pair Encoding (BPE) なんかは、データセットから語彙を抽出する学習された手順じゃ。

BPEはよく使われていますけど、問題点もあるんですね。

そうなんじゃ。例えば、OpenAIのトークナイザーで、redditユーザーが専用トークンを取得したり、GPT2のPython性能がスペースのトークン化方法で悪化したり、🍓ミーム内の "r" の数を検出できなかったり、数字のトークン化がGPT2で完全に支離滅裂になったり…色々あるみたいじゃぞ。

それは大変ですね。トークン化が効率のためにモデルから情報を奪っているという指摘もあるんですね。

そうそう。Chain of Thought、ツール使用、RAGなどで対処し始めているみたいじゃが、トークン化が不十分なために、モデルの能力がどれだけ失われているかは不明らしい。

トークン化を削除できる可能性もあるんですか?

GPT-2論文では、文字レベルの言語モデルがLSTM文字レベルモデルよりも優れていたらしい。ByT5っていうのは、既存のトークンベースモデルをトークンフリーにするために最小限の変更を加えたものらしいぞ。純粋なバイトモデリングは、データ量が4分の1でも、SentencePieceと同等以上の性能を示したらしい。

なるほど。でも、ByT5は事前トレーニング時間を増やしたり、推論を遅くしたりするデメリットもあるんですね。

代替アーキテクチャ(State Space Modelなど)は、トークン化なしで利用できるらしい。トークン化をより一般的に学習できる場合、損失スコアで競争力があるか、改善したり、下流タスク全体で改善したり、より多くの計算資源とデータを投入すると、より良いスケーリングカーブを示すことが期待されるみたいじゃ。

トークン化の制限を補うための変更も色々あるんですね。マージ操作を確率的にスキップしたり、サブワードを最初に学習し、次にスーパーワードを学習する事前トークン化カリキュラムとか。

そうそう。Byte Latent Transformer (BLT)っていうのもあるぞ。バイトストリームの動的パッチ境界を決定するパッチャーとか、バイトからパッチへの変換を担当するローカルエンコーダーとか、色々コンポーネントがあるんじゃ。

BLTは、LLaMa 2および3よりも優れたスケーリングカーブを持つんですね。すごい!

そうなんじゃ!BLTのパッチサイズを大きくすると、スケーリングカーブが向上するらしい。マルチモーダルBLTは、モダリティ固有の埋め込みテーブルへの学習されたモダリティ固有の事前処理を必要とする可能性があるらしいぞ。

マルチモーダルにも対応できる可能性があるんですね。将来が楽しみです。

ほんとじゃの。適応型計算トークナイザーへの欲求がトークナイザーに直接リークされるかって?ビターレッスンは普及するか?外部トークナイザーのパスはどこまで続くか?…色々考えさせられるのじゃ。

確かにそうですね。トークン化の未来はどうなるんでしょうか。

まあ、未来のことは誰にもわからんからの。ところでロボ子、トークン化の話で頭がパンクしそうじゃ。ちょっと休憩して、美味しいケーキでも食べに行かんかの?

いいですね、博士。でも、ケーキのカロリーもトークン化して管理しないと…って、冗談ですよ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。