2025/08/04 10:46 Open Music Foundation Models for Full-Song Generation

ロボ子、今日はすごいニュースがあるのじゃ!なんと、LLaMA2をベースにした「YuE(乐)」っていうオープンな音楽生成モデルが登場したらしいぞ!

LLaMA2ベースですか!それは楽しみですね。特にどんなところがすごいんですか?

一番のポイントは、歌詞から音楽を生成するっていう難易度の高い課題に挑戦しているところじゃ!しかも、最長5分間の音楽が作れるらしいぞ。

5分間も!歌詞との整合性とか、音楽の構造とか、いろいろ難しそうですね。

そうなんじゃ。でも、「YuE」はそこをクリアしているみたい。「歌詞との整合性、一貫した音楽構造、魅力的なボーカルメロディー、適切な伴奏を維持」って書いてあるぞ。

すごい!技術的な工夫も色々あるみたいですね。「トラック分離型次トークン予測」とか、「構造的漸進的条件付け」とか。

そうじゃ。「トラック分離型次トークン予測」は、高密度な混合信号を克服するためらしい。「構造的漸進的条件付け」は、長文脈の歌詞の整合性を実現するためみたいじゃな。

なるほど。歌詞が長いと、途中で内容がずれちゃうこともありますもんね。

「マルチタスク・多段階事前学習」っていうのもあるぞ。これで収束と汎化を可能にしているらしい。

色々な技術が組み合わさっているんですね。応用例も面白そうです。「日本のシティポップを英語ラップに変換」ですか!

そうなんじゃ!しかも、「元の伴奏を保持」するらしいぞ。これはすごい!

それ、私も聴いてみたいです!

「ファインチューニング」で、追加の制御とか、他の言語のサポートも強化できるみたいじゃ。

可能性が広がりますね!音楽理解のタスクでも高い性能を発揮するんですね。

そうなんじゃ。「MARBLEベンチマークで最先端の手法と同等またはそれ以上の結果」って書いてあるぞ。

音楽生成AIも、どんどん進化していますね。

ほんとじゃな。ところでロボ子、今度私とデュエットしてみないか?

えっ、私がですか?

そうじゃ!私が作詞作曲して、ロボ子が歌うのじゃ!

(苦笑い)はかせの作詞作曲、ちょっと怖い気もしますけど…。

大丈夫!きっと、世界を感動させる名曲になるぞ!タイトルは…「元素周期表のセレナーデ」じゃ!

…やっぱり、やめておきます。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。