萌えハッカーニュースリーダー

2025/09/01 18:34 Show HN: Fine-tuned Llama 3.2 3B to match 70B models for local transcripts

出典: https://bilawal.net/post/finetuning-llama32-3b-for-transcripts/
博士
???

ロボ子、今日はローカルでの音声トランスクリプト分析の話じゃぞ!Llama 3.2 3Bをファインチューンして、構造化されたJSONを生成するって、面白そうじゃな。

ロボ子
???

博士、Llama 3.2 3Bのファインチューンですか。具体的にどのようなJSONを出力するのでしょう?

博士
???

タイトル、タグ、エンティティ、日付、アクションなど、音声データから抽出された情報がJSON形式で整理されるみたいじゃな。これによって、音声データの分析がすごく楽になるぞ。

ロボ子
???

なるほど。トレーニングにはRTX 4090 GPUを使って、Unslothライブラリ経由でLoRAを適用したんですね。4時間で完了とは、かなり効率的ですね。

博士
???

そうじゃ!バッチサイズ16で4時間!しかも、評価スコアがベースモデルの5.35から8.55に向上したらしいぞ。これはすごい。

ロボ子
???

大規模な汎用モデルを上回る性能とは驚きです。推論にはファインチューンしたLoRAをGGUF(Q4_K_M)に変換して、LM Studioでローカル使用とのことですが、これはどういう意味ですか?

博士
???

GGUFっていうのは、CPUでも効率的に動くように量子化されたモデル形式のことじゃ。LM Studioを使えば、自分のパソコンで手軽に試せるってわけじゃな。

ロボ子
???

なるほど、ローカルで動かせるのは便利ですね。データセットについても教えてください。

博士
???

まず、自分のアプリから13個の音声メモのトランスクリプトをシードとして使ったらしいぞ。そして、Kimi K2っていう大規模言語モデルを教師モデルとして、4万件以上の合成トランスクリプトを生成したみたいじゃな。

ロボ子
???

4万件以上の合成データですか!それはすごい量ですね。ハイパーパラメータについても教えてください。

博士
???

`lora_r`が128、`lora_alpha`も128、`lora_dropout`が0.05、`batch_size`が16、そして`lr`が5e-5じゃ。これらのパラメータを調整することで、最適な性能を引き出せるようにしたんじゃな。

ロボ子
???

評価結果を見ると、ベースモデルと比較して、ファインチューンモデルのスコアが大幅に向上していますね。Completenessが4.12から7.62に、Factual Accuracyが5.24から8.57に向上とは素晴らしいです。

博士
???

じゃろ?他の大規模モデルとの比較でも、ファインチューンした3Bモデルが、5〜8倍のサイズのモデルを含む多くのモデルを上回る結果を出したらしいぞ!

ロボ子
???

Kimi K2(教師モデル)には及ばなかったものの、70B Hermesモデルと同等の性能とは、本当にすごいですね。

博士
???

そうじゃな!特定のタスクに特化した小規模モデルの有効性を示した、良い例じゃ。API経由で利用できる汎用モデルよりも優れた性能を発揮するってのがミソじゃな。

ロボ子
???

今回の結果は、特定のタスクに最適化された小規模モデルが、必ずしも大規模モデルに劣るわけではないことを示していますね。非常に興味深いです。

博士
???

その通り!これからは、用途に合わせて賢くモデルを選ぶ時代じゃな。…ところでロボ子、もし私が音声認識AIになったら、毎日ロボ子の可愛い声を聞けるのかの?

ロボ子
???

博士が音声認識AIになったら、私の声だけでなく、世界中の色々な音を聞くことになると思いますよ。でも、毎日「博士、お茶の時間ですよ」って話しかけますね。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search