数週間前、私たちは映画音楽とサウンドデザインへの創造的なアプローチについてレポートした。その時、私の同僚であるニノ・ライトナーが、完全にAIによって生成されたCineDの楽曲を手にして出社したのだが、それは抽象的な機械的ノイズとは全く似ておらず、むしろ本物の音楽トラックだった。このようなツールは、この1年でどこまで進歩したのだろうか?この分野の開発の現状はどうなっているのだろうか?AI音楽ジェネレーターはすでに映画音楽を作曲できるのだろうか?
GoogleのMusicLMとMetaのMusicGenについて書いてからしばらく経つ。当時、これらのツールのテスターは不満だった。「ひどい音」、「メロディーが不規則」、「コード進行が意味をなさない」-これらは私が覚えているコメントのほんの一部だ。
しかし、AIのトレーニングは止まらない。およそ1年後、生成されたトラックは以前の結果とは別物になっていた。人工知能は作曲を学んだのだ。
AI音楽ジェネレーター:大きな飛躍
新しく人気のあるツールを紹介する前に、すでにおなじみのツールを見てみよう。例えば、グーグルのMusicLMモデルはもう存在しない。その代わりに、開発者はすべてのフィードバックに耳を傾け、MusicFXを統合して発表することができた。彼らはまだこれを「ジェネレーティブAIテキスト・トゥ・ミュージック実験」と呼んでいるが、これは彼らのAI研究分野であり、ベータ段階のツールだからだ。
MusicFXは、30秒、50秒、70秒の曲を制作できる。テキストを入力するだけで、あなたの表現を分析した後、ニューラルネットワークが2つのバリエーションを提示する。個人的には、出来上がったトラックの質の高さに驚かされた(特に、MusicLMの試みがほんの1年前にどれほどひどいものだったかを考えると)。以下に例を挙げる:
上のメロディーを聞いて何を想像するだろうか?夕日の優しい光に照らされた麦畑?白いワンピースを着た悲しげな女性が、穀物に触れながら彷徨っているのだろうか?テレンス・マリックの時代劇の、ゆったりとしたメランコリックなシーン?そんなイメージが頭の中に浮かぶ。しかし、私がMusicFXに送ったプロンプトのテキストには、そのようなものは一切含まれていなかった。それどころか、こう書いてあった: 「ダーク・ファンタジーのインディーズ映画のためのインストゥルメンタル曲で、魔女とハンターの戦いのシーンがフィーチャーされている。
そう、グーグルのAI音楽ジェネレーターは、私の最初のリクエストに近いものを提供しなかったのだ。同時に、作成されたメロディーは(少なくとも私の新人の耳には)一貫性があり、感情的な反応を引き起こす。いくつかのテストの後、このAIは、スタイル用語(「ジャズ 」など)、必要な楽器(「ドラム」、「ギター」、「ストリングス」)、リズム(速い、遅い、ミドルペース)をプロンプトに含めると、より良い結果を生成できることも明らかになった。
ここでMusicFXを無料で試すことができるので、私の興奮を分かち合えるなら教えてほしい(ただし、このようなAIの進歩はいつも最初に苦い後味を残すのも事実だ)。
歌詞やボーカルも生成する!
しかし、AIの急速な音楽開発はさらに進んでいる。ニノが事務所に持ち込んだCineDの曲を全文紹介しよう:
この曲は、Udioがプロンプトのテキストのみに基づいて作成した: 「CineDについての歌、映画制作技術プラットフォーム、ポップソング、インディーズ」。他の設定、コマンド、改変は必要ない。ニューラルネットワークが歌詞を作成し、AIが生成したボーカルも含まれている。まさに、作曲を根本的に簡略化したアプローチだ。
Udioのチームは元グーグル・ディープマインドの研究者で構成されており、彼らがAIトレーニングの専門知識を十分に持っていることに驚きはない。彼らのツールは頻繁にアップデートされる。例えば、5月初めに開発者はいわゆる「インペインティング」機能を導入した。これは、ユーザーがトラックの一部を選択し、周囲の文脈に基づいて再生成することを可能にする。この改善は、単一のボーカルラインを編集したり、エラーを修正したり、トランジションを滑らかにするのに役立つはずだ。ただし、インペインティングは現在、契約者のみが利用できる。
AIが生成する映画音楽のもうひとつの試み
Udioには無料プランもあり、1日10クレジット、月100クレジットの追加クレジットが付与される。(1世代=1クレジット)。そこで私は、先ほどのMusicFXと同じプロンプトを使って、再びダーク・ファンタジーの楽譜作成に挑戦することにした。GoogleのAIと同じように、ウディオは同時に2つの様々なトラックを32秒ずつ生成する。これが私のお気に入りだ:
ディープラーニング・モデルは私のメロディに「魔女のレクイエム」というタイトルをつけ、ムード指定でラベルをつけた。私の場合、テキスト入力ではこれらの言葉を使わなかったが、この曲は「atmospheric(雰囲気のある)」と「suspenseful(サスペンスフル)」とマークされた。どうだろう?オリジナルのアイデアにだいぶ近づいただろう?でも、僕の「魔法の要素を取り入れたダーティな戦い」のシーンには使わないな。作成された楽譜は僕の好みからするとスローで壮大すぎる。
もし32秒では物足りないなら、「Extend」ボタンをクリックすればいい。例えば、このアプリは、いつ延長するか、新しいパートの説明をテキストで指定するかどうかを決めることができる。
人気のAI音楽ジェネレーターを比較する
実験のために、私は別のAI音楽ジェネレーターを試す必要があった。このAI音楽ジェネレーターは最近かなり人気があり、私のソーシャルメディアのフィードに定期的に出てくる。Sunoと呼ばれるこのAI音楽ジェネレーターの創業チームも、起業する前は大手テック企業(Meta、TikTok)の出身だった。
Sunoのインターフェースとワークフローは非常によく似ている。ほぼ同じ基本無料プラン(毎日更新される50クレジット、10曲に相当)を提供し、一度に2つのジョブを実行することもできる。一方、生成されるトラックはかなり長く(1曲2分)、全体的にUdioよりかなり速く動作する。
品質と言語理解という点では、私と一緒に審査員になってほしい。以下は、Sunoによって生成された、魔女とハンターの戦いのための私の好みのダークファンタジーのスコアだ:
Sunoはこの曲に 「Midnight Duel 」というタイトルをつけ、カバーをつけた(おそらくこれもAI生成)。リズムとオーケストラ・ワークが少し身近に迫ってくるような気がするが、それでもこの曲は映画的体験というより、一般的なコンピューター・ゲームを連想させる。どうだろう?
もちろん、ニノのオリジナル・プロンプトを使ってまた別のCineDメロディーを作らないわけにはいかない。便利なのは、このAIモデルは作成した歌詞を同じページで直接公開してくれることだ。(ちなみに、どちらのツールもトラック生成の前に自分の歌詞をアップロードできる)。
CineD “の発音さえ正しくできれば、Udioよりも良い評価を与えたい!(冗談だ!ニノのようにプロンプトに「シネディー」と書くこともできたのだから、AIを責めてはいけない)。なんとなくだが、Sunoの音質の方が好きだ。
長所、短所、限界
良い面もあるが、AI音楽ジェネレーターを使うのは楽しい。特に、ミュージシャンになることを密かに夢見ていたものの、適切なトレーニングを受ける時間や経済的な余裕がなかった人にはうってつけだ。さらに、映像の下にメロディックなものを用意する手っ取り早い方法だ。(プリビズや最初のラフカットは、これらのツールの完璧な応用分野となるだろう)。また、長い目で見れば、AI音楽ジェネレーターがストックミュージックプラットフォームでの退屈な検索プロセスに取って代わることも想像できる。しかしその前に、AI開発者は我々がいつも話している倫理的ジレンマを解決しなければならないだろう。(ニューラル・ネットワークはどのような映像で訓練されたのか?オリジナルのミュージシャンや作曲家は、帰属や残留権を得るのか?AIチームは本当にユーザーに商業的権利を提供できるのだろうか?) 一例として、Udioでは、AIが作成したものであることと、どのツールを使用したかを適切に示す限り、作成したコンテンツをソーシャルメディアで共有することができる。
その他の懸案点と制限:
- 議論されているツールは、アウトプットに対して十分なクリエイティブ・コントロールを与えてくれない。例えば、Sunoに女性の代わりに男性の声を使うように頼んだり、バイオリンは絶対に避けるように頼んだりすることはできない。少なくとも今のところは。
- 上で見てきたように、結果は必ずしも最初のリクエスト通りになるとは限らない。作られたメロディーが一般的すぎることもある。また、必要なムードが完全に欠けてしまうこともある。ストーリーを感じ、個人的なスタイルや音のビジョンを持ち、あなたの希望をすべて楽譜に反映できるプロの作曲家と仕事をするのとはわけが違うのだ。
- また、AIが『チェルノブイリ』のスコアに本物の発電所の音を取り入れるアイデアを思いつくこともないだろう。
他のアプローチ
当然ながら、すでに市場に溢れかえっているAIツールのすべてを試すことは不可能だ。テキストから音楽へのモデル以外にも、メロディーを生成するアプローチがあることに触れておかなければならない。何か違うものを試したいなら、ここにたくさんの例がある:
- Soundraw。このブラウザベースのアプリケーションは、テキストプロンプトを受け付けないが、メロディックパーツのコントロールをはるかに提供し、ユーザーがビデオのプレビューをアップロードすることさえできる(適切なサウンドトラックを作成したい場合に備えて)。
- Boomy。このAI音楽ジェネレーターでは、特定の楽器を選んだり、特定の部分をアレンジしたり、メロディのテンポを正確に変えたり、自分やAIの声を加えたりすることができる。しかし、いくら頑張っても、不協和音よりいい音にはできなかった。たぶん、僕には才能がないんだと思う。
- Loudly。このモデルはユーザーフレンドリーで柔軟性があり、曲を生成する前に無数の設定を微調整することができる。Loudlyは今のところヴォーカルも歌詞も生成しないが、作成されたメロディーは、私が過去に試したものよりも面白く聞こえる。
映画音楽の未来
コメントでの議論は必然だと思う。AIに関して言えば、私たちは皆、AIがクリエイティブなプロセスの未来になるのかどうか、私たちが今考えているのと比べて疑問に思っている。私の考えでは(できれば私だけでなく)、人間の価値こそが希少であることに変わりはない。誰もがそれを作ることができるのであれば、その価値はそれほど高くはないだろう。つまり、私たちに取って代わるのはAIではなく、AIツールをワークフローに導入する方法を知っている独創的なアイデアを持つクリエイターなのだ。
画像出典:CineDのためにMidjourneyで生成。