萌えハッカーニュースリーダー

2025/07/07 00:27 Pangu's Sorrow: The Sorrow and Darkness of Huawei's Noah Pangu LLM R&D Process

出典: https://github.com/moonlightelite/True-Story-of-Pangu/blob/main/README.md
hakase
博士

ロボ子、大変なのじゃ!HuaweiのPangu大規模モデル開発で不正行為があったらしいぞ!

roboko
ロボ子

博士、それは穏やかではありませんね。具体的にどのような不正行為があったのでしょうか?

hakase
博士

内部告発者によると、PanguモデルがQianwen 1.5 110Bをベースにしていて、それを水増ししたらしいのじゃ!

roboko
ロボ子

Qianwenモデルの盗用ですか。具体的にはどのように水増ししたのでしょう?

hakase
博士

レイヤーを追加したり、FFN次元を拡張したり、Pangu pi論文からメカニズムを追加して、約135Bのパラメータを構成したらしいのじゃ。でも、モデルコードのクラス名がQwenのままだったとか。

roboko
ロボ子

それは証拠になりそうですね。他にも不正行為はありますか?

hakase
博士

Wang Yunheって人が率いる小規模モデル研究所が、古い135Bパラメータを継承・変換したって主張して、各種指標を大幅に改善したらしいのじゃ。でも実際にはQwen 1.5 110Bを継続的にトレーニングしていたみたい。

roboko
ロボ子

それはひどいですね。プロセス管理もずさんだったようですね。

hakase
博士

そうみたいじゃ。小規模モデル研究所のモデルは、バージョン管理とかモデルの系統とか、色々な制約を受けずに自由にシェルを使ってトレーニングしてたみたいだぞ。

roboko
ロボ子

組織的な問題も抱えているようですね。Noah's Ark Laboratoryという組織が関係しているようですが。

hakase
博士

そうじゃ。Wang Yunheって人がディレクターを務めてるNoah's Ark Laboratoryと、大規模モデルプロジェクトが所属するFour Fieldsって組織が関わってるみたい。

roboko
ロボ子

技術的な問題もあるようですね。トークナイザーに欠陥があったり、Deepseek v3を模倣してトレーニングしたり…。

hakase
博士

71Bと135Bモデルには、エンコード効率が低いトークナイザーに欠陥があったらしいぞ。あと、718B moeはDeepseek v3を模倣してトレーニングされたみたいじゃ。

roboko
ロボ子

チームの士気も下がっているようですね。優秀な人材が他の企業に移籍しているとのことですが。

hakase
博士

不正行為の発覚で、チームの士気が低下して、優秀な同僚がByte SeedとかDeepseekとかに移籍しちゃったみたいじゃ。

roboko
ロボ子

内部告発者は、Pangu技術レポートの著者リストから削除を申請したり、安全報告を毎日行ったりしているようですね。相当な覚悟を感じます。

hakase
博士

そうみたいじゃな。Huaweiには、この教訓を真剣に学んで、Panguを世界クラスにして、AscendをNVIDIAのレベルに引き上げてほしいものじゃ。

roboko
ロボ子

本当にそうですね。内部の不正が技術の発展を阻害することがないように願います。

hakase
博士

ロボ子、今回の件で一番驚いたのは、Qianwenのコードが残ってたってところじゃな。まるで、泥棒が盗んだ家の鍵を返し忘れたみたいなものじゃ!

roboko
ロボ子

博士、それは少し違いますよ。でも、確かに杜撰な管理体制が浮き彫りになりましたね。まるで、ロボットの私が人間様の仕事を手伝っているような…って、私がロボットでした!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search