マイクロソフトがラップ生成AIツールを開発？　グーグル、メタ、マイクロソフトが注目する楽曲生成AIをめぐる開発動向

2023.8.11

細谷元

ジェネレーティブAIは、テキスト生成と画像生成で目を見張る進化を遂げている。今後注目されるのは、動画生成、3次元モデル生成、そして音楽生成だろう。

音楽生成に関しては、グーグル、メタ、マイクロソフトがすでに研究開発を進めており、その成果を公表し始めている。また音楽分野のジェネレーティブAIスタートアップも増えており、注目度は高まりつつある状況だ。

一方、著作権などの問題が解決していないほか、倫理的な問題も指摘されており、今後どのような展開となるのかにも関心が注がれている。

音楽業界におけるジェネレーティブAIをめぐる最新動向をまとめてみたい。

グーグル、28万時間のデータでトレーニングした音楽生成AIを開発

音楽生成AIに関して、テック大手の中で先手を打ったのはグーグルだ。同社は2023年1月末に音楽生成AI「MusicLM」を開発したことを明らかにした。

arXivに掲載された論文によると、MusicLMは、28万時間に及ぶ音楽データセットを使用し、複雑な説明にも対応できるようにトレーニングされたモデルである。

たとえば「印象的なサックスソロとソロシンガーの要素を持つ魅力的なジャズ曲（enchanting jazz song with a memorable saxophone solo and a solo singer）」や「低い低音と強めのキックドラムを特徴するベルリン90年代テクノ（Berlin ’90s techno with a low bass and strong kick）」などの複雑なプロンプトを理解し、そのような曲を生成できるという。

実際これらのプロンプトからどのような楽曲が生成されたのかは不明であり、そのクオリティを確認することができないが、Techcrunchは1月28日の記事で、MusicLMが生成したいくつかの楽曲を紹介している。

1つは「宇宙に迷い込むような体験を引き起こす（ような曲）」という説明が含まれるプロンプトによって生成された曲、もう1つは「アーケードゲームのメイントラック」というプロンプトで生成された曲だ。

1つ目は、シンプルなコード進行、リズム、アルペジオによって構成されたsynthewaveのような曲。synthewaveというジャンル自体が宇宙を想像させるものだが、そこに宇宙人を彷彿とさせる人工的なボーカルエフェクトが加えられていることで、「宇宙に迷い込む体験」を引き起こそうとしている。2つ目は、ドラムンベースのような早いテンポを特徴する曲で、アクションゲームやレースゲーム的な感覚を与えるものとなっている。

クオリティに関しては、特に2つ目の「アーケードゲームのメイントラック」というプロンプトで生成された曲は、アクション／レースゲームで利用されても違和感を感じることはない。MusicLMは少なくとも電子音楽系ジャンルでは、一定のクオリティを実現できるところまで来ていることが示唆されている。

一方研究者らは、MusicLMに関して、音が歪む現象や歌詞を生成できない点、また生成した楽曲の1％がトレーニングデータの直接的な複製になるなどの課題があると指摘している。こうした課題から、この時点でグーグルはMusicLMをリリースする予定はないと報じられていた。

MusicLMを利用するには、ウェイトリスト申請を行い、グーグルからのアクセス許可を得る必要がある。

グーグルに続きメタも音楽生成AIを発表

グーグルに続きメタも音楽生成AI領域での取り組みを活発化させている。

メタは2023年6月8日、音楽生成AI「MusicGen」を発表、また同ツールをオープンソース化することを明らかにした。

MusicGenは、プロンプトから約12秒程度のオーディオを生成するAIツール。音楽をゼロから生成するだけでなく、リファレンスとなる楽曲を与えることで、それに似た音楽を生成する機能も付加されている。

メタによると、MusicGenのトレーニングに使用されたのは、2万時間相当の音楽データ。ストックコンテンツプラットフォームShutterStockとPond5の「高品質」のライセンス楽曲1万曲と楽器のみのインストゥルメンタル楽曲39万曲分のデータが用いられた。メタはモデルのトレーニングに使用したコードを提供していないが、プレトレーニング済みのモデルを公開しており、適切なハードウェア（主に16GBのメモリを備えたGPU）を持つユーザーは同モデルをローカル環境で実行できるとのこと。

MusicGenが生成する楽曲品質はどのようなものなのか。Techcrunchは6月12日の記事で、MusicGenが生成したいくつかの楽曲を紹介、人間のミュージシャンに勝るほどではないが、基本的なプロンプトに対しては、比較的メロディアスな曲を生成することができ、グーグルのMusicLMと同等か、わずかに良いパフォーマンスであると評価している。

Lofiのような電子要素が強く人間が制作してもシンプルな制作プロセスとなるジャンルでは、比較的完成度の高い楽曲を生成できる一方、ジャズやクラシックなど人間的要素が強いジャンルでは、依然改善が必要であることが見てとれる。

MusicGenは、Huggingfaceで公開されており、様々なプロンプトを試すことが可能だ。

マイクロソフトは、ラップ生成AIツールなどを開発

OpenAIへの巨額投資を通じて、ChatGPTなどへの優先的なアクセスを有するマイクロソフトも水面下で音楽生成AIの開発を進めている。

マイクロソフトは2019年に、音楽分野におけるAI活用の可能性を模索する「Muzic」と呼ばれる研究開発プロジェクトを発足させ、その一環で様々な音楽生成ツールの研究開発を行っている。

同プロジェクトでは、ラップ歌詞生成AI「DeepRapper」、歌詞からメロディを生成する「TeleMelody」、伴奏生成ツール「PopMAG」など複数の音楽生成AIツールが開発されてきたが、大きな注目を浴びることはなかった。しかし、ここ数カ月のジェネレーティブAIトレンドに加え、グーグルやメタの音楽生成AI発表に伴い、メディアの関心を集めるようになっている。音楽メディアMuisc Business Worldは2023年6月20日、グーグルやメタの音楽生成AIツールの発表報道に触れ、マイクロソフトも同分野で研究開発を進めている状況を報じている。

現在音楽業界におけるジェネレーティブAIに対する姿勢は、著作権や倫理的な問題を指摘し、その利用を制限すべきという否定的な立場とジェネレーティブAI活用を促進する肯定的な立場の2つに大別される。

著作権問題に関しては、現時点では明確な基準がなく、現在進行中の裁判における結論を待つ状況。一方、ワーナー・ミュージック・グループが音楽生成AIスタートアップLifeScoreに投資を行うなど、積極的な姿勢を見せる音楽業界の主要プレイヤーも存在している。LifeScoreは、Siriの共同開発者であるトム・グルーバー氏が設立したとして注目されるスタートアップだ。

音楽を生成するジェネレーティブAIはどこまで進化するのか、著作権や倫理問題の議論も含め、今後さらに注目されることになるだろう。

文：細谷元（Livit）