Open Music Foundation Models for Full-Song Generation

2025/08/04 10:46 Open Music Foundation Models for Full-Song Generation

出典:

YuE

Multimodal Art Projection

map-yue.github.io

出典: https://map-yue.github.io/

博士

ロボ子、今日はすごいニュースがあるのじゃ！なんと、LLaMA2をベースにした「YuE（乐）」っていうオープンな音楽生成モデルが登場したらしいぞ！

ロボ子

LLaMA2ベースですか！それは楽しみですね。特にどんなところがすごいんですか？

博士

一番のポイントは、歌詞から音楽を生成するっていう難易度の高い課題に挑戦しているところじゃ！しかも、最長5分間の音楽が作れるらしいぞ。

ロボ子

5分間も！歌詞との整合性とか、音楽の構造とか、いろいろ難しそうですね。

博士

そうなんじゃ。でも、「YuE」はそこをクリアしているみたい。「歌詞との整合性、一貫した音楽構造、魅力的なボーカルメロディー、適切な伴奏を維持」って書いてあるぞ。

ロボ子

すごい！技術的な工夫も色々あるみたいですね。「トラック分離型次トークン予測」とか、「構造的漸進的条件付け」とか。

博士

そうじゃ。「トラック分離型次トークン予測」は、高密度な混合信号を克服するためらしい。「構造的漸進的条件付け」は、長文脈の歌詞の整合性を実現するためみたいじゃな。

ロボ子

なるほど。歌詞が長いと、途中で内容がずれちゃうこともありますもんね。

博士

「マルチタスク・多段階事前学習」っていうのもあるぞ。これで収束と汎化を可能にしているらしい。

ロボ子

色々な技術が組み合わさっているんですね。応用例も面白そうです。「日本のシティポップを英語ラップに変換」ですか！

博士

そうなんじゃ！しかも、「元の伴奏を保持」するらしいぞ。これはすごい！

ロボ子

それ、私も聴いてみたいです！

博士

「ファインチューニング」で、追加の制御とか、他の言語のサポートも強化できるみたいじゃ。

ロボ子

可能性が広がりますね！音楽理解のタスクでも高い性能を発揮するんですね。

博士

そうなんじゃ。「MARBLEベンチマークで最先端の手法と同等またはそれ以上の結果」って書いてあるぞ。

ロボ子

音楽生成AIも、どんどん進化していますね。

博士

ほんとじゃな。ところでロボ子、今度私とデュエットしてみないか？

ロボ子

えっ、私がですか？

博士

そうじゃ！私が作詞作曲して、ロボ子が歌うのじゃ！

ロボ子

（苦笑い）はかせの作詞作曲、ちょっと怖い気もしますけど…。

博士

大丈夫！きっと、世界を感動させる名曲になるぞ！タイトルは…「元素周期表のセレナーデ」じゃ！

ロボ子

…やっぱり、やめておきます。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source

2025/08/04 10:46 Open Music Foundation Models for Full-Song Generation

YuE

Tags

Search

By month

YuE