半年前のNAB2023で、アドビはビデオ用AIモデル「Firefly」の大々的なリリースを約束した。その時の発表には、SFの本から飛び出してきたような内容が含まれていた。例えば、台本をワンクリックで完成した絵コンテにしてくれるニューラルネットワークや、ビジュアルに完璧にマッチしたサウンドを生成できるインテリジェントなメカニズムなどだ。私たちはまだここまで到達していないが、アドビからはさらに多くのAIツールが登場することが判明している。先日のAdobe Sneaksセッションで、エンジニアたちは、まさに度肝を抜かれるような他の進行中のプロジェクトの数々を明らかにした。その中には、映像制作の未来がもうすぐそこまで来ているように感じさせるものもある。それともそうなのだろうか?
Adobe Sneaksのデモでは、3Dフォームを生成するツールや、AIによる写真編集の強化、簡単なビデオ合成のためのツールなど、開発中のあらゆるプロジェクトが紹介された。また、インターネット上で大きな反響を呼んだプロジェクト「プリムローズ」については、すでにご存じだろう。そのアイデアは、もし私たちの衣服がボタンをクリックするだけで、デザインのように簡単に再構成できるようになったら、ファッション業界はどのように変わるだろうかという疑問に沿ったものだ。静止していないデジタル・ドレスを見たことがあるだろうか?間違いなく一見の価値がある!
以下では、アドビが提供するAIツールの中から、特に映像制作者にとって面白そうな “仕掛品 “をいくつかピックアップした。ライブストリーム全体をご覧になりたい方は、こちら。
アドビのAIツールでプロのように絵コンテを描く
個人的には、撮影前にショットをスケッチしない映画制作者をほんの一握りしか知らない。しかし、その絵の正確さは、制作者のスキルと時間の両方によって異なるかもしれない。ご存知の通り、すべてのプロダクション(特にインディーズ)がプロの絵コンテ・アーティストを雇えるわけではなく、それでも自分のビジョンを紙に書いてチームに伝えたい。さて、驚いたことに!Adobeのプロジェクト「Draw and Delight」が、この点であなたの右腕になってくれるかもしれない。
一見すると、MidjourneyやFireflyに似た新しい画像ジェネレーターのように見える。しかし、あなたのアイデアに近い画像を得るためにテキストプロンプトを調整する必要はない。この新しいツールが基本的に行うのは、オブジェクトやキャラクターの非常にラフなアウトラインを詳細な落書きに変えることだ。プレゼンテーションでは、開発者がボールで遊ぶ猫をスケッチし、AIにそれを解釈させた。下の写真のように、結果は予想以上で、猫のポーズと完全に一致した。そして、これはほんの始まりに過ぎなかった。
このモデルでは、テキスト入力を加えたり、生成されたキャラクターのポーズを簡単に変えたり(例えば「猫が踊る」と命令する)、ラフな筆使いで色をつけたり、同じシンプルな落書きスタイルで背景や別の被写体を挿入したりすることもできる。最もエキサイティングなのは?画像はすべてベクターで作成されているので、アドビ・イラストレーターに取り込むことができる。そうすれば、好きなように画像を動かしたり加工したりできる。自分で素早く絵コンテを作るには完璧な方法だ。
コンテンツを意識した塗りつぶしでレベルアップ
Adobe After EffectsでVFXを扱っている人なら、コンテンツ認識フィルはすでにご存知だろう。このツールを使えば、映画制作者はショットの中の邪魔な要素をマスキングすることができ、ツールはそのギャップを埋めるために最善を尽くす。しかし、Adobeはこの技術を新たなレベルに引き上げ、Fast Fillを発表した。
デモは3つの異なるショーケースで構成されていた。最初のものでは、人工知能が背景から人物を抽出し、映像のカメラの動きとシームレスにマッチさせた(コンテンツ認識フィルと同じだが、もう少し高度)。
さらなる作例はとても非現実的に見えたので、自分でも試してみたくなった。シンプルなマスクといくつかの単語、そして「生成」ボタンを押すだけで、ニューラルネットワークは歩いているビジネスマンにネクタイを追加し、クローズアップショットで動いているコーヒーの表面のパターンを交換した。おかしなことに、新しい要素は違和感がなかった。照明は、映像の他の部分と一貫して変化した。ネクタイの生地は体の動きに合わせて動き、コーヒーの揺れは新しい模様とシームレスに溶け合い、模様が変更されたとは思えないほどだ。
古いCMを更新するために、リブランディングしたクライアントのロゴを製品に挿入するのに苦労したことを覚えているだろうか?そんなことも、もうすぐただの思い出になりそうだ。
アドビのソフトウェア内でビデオをアップスケールする
アドビがリリースしようとしているもう一つのツールは、市場にとって目新しいものではない。いわゆるプロジェクトResUpは、その名の通りAIアップスケーラーだ。この分野には、広く知られているTopaz Labsをはじめ、いくつかの主要なアプリケーションがある。しかし、Adobeソフトウェアで低解像度の画像を直接アップスケールできることは、編集者にとって(Adobe製品で作業することを前提にすれば)、より速く、より便利になることは間違いない。
競合他社のように、ResUpは、HDよりもさらに小さいさまざまなソースからの画像やビデオを処理する。プレゼンテーションでは、大幅にズームされたショット、古い映画のワンシーン、さらには小さなGIFからのシーケンスが紹介された。その結果は説得力のあるものだったが、最終的な判断を下すには一般公開を待つ必要がある。
音声用吹き替えツール:学習せずに複数の言語を話す
そして次は、私を驚かせたプロジェクトだ。AIを使った「Dub Dub Dub」は、ビデオクリップを自動的に外国語に吹き替えることができるらしい。ショーケースでは、ニューラルネットワークが女性のスピーチを翻訳しただけでなく、彼女の声を再現し、おそらく彼女も知らないであろう数カ国語のビデオバージョンを生成した。驚くべき結果だが、正直なところ、まったく威圧的でもある。
確かに、YouTubeのブロガーを筆頭に、多くのクリエイターが楽になるだろう。しかし、習ったこともない中国語を話している自分を見たら、身の毛がよだつだろう。また、私の声(あるいはクライアントの声)を加工して使うことにも問題がある。このデータはどこに行くのか?誰がアクセスできるのか?
ソーシャルメディアで見つけたこのツールに関するいくつかのコメントは、私が心配しているのは私一人ではないことを裏付けている。ユーザーは、この新しいAI技術が間違った方法や悪意を持って使われることを恐れている。また、”AIができるのなら、人間のクリエイターを雇う必要はないのでは?”というような歪んだイメージを人々の心に植え付けることにならないか不安なのだ。
アドビのAIツールにおけるテキストから動画へのアプローチ
アドビの別のライブストリームでは、テキストからビデオへのアプローチについて2、3の言葉があった。ご存知のように、いくつかの企業が、シンプルなテキストボックスにシーンの説明を入力すると、生成されたビデオが返ってくるような技術に取り組んでいる(例えば、グーグルの研究についてはこちらで書いた)。実際、ランウェイのGen2はすでにそれを実現しており(もちろん完璧ではないが)、そのニューラルネットワークを試すこともできる。
アドビはこの流れに乗り遅れまいと、新しいビデオ用AI「Firefly Generative AI」を発表した。
デモによると、静止画をアップロードしてFireflyにアニメーションさせることもできるようになる。編集者やコンテンツ制作者が、動画をよりダイナミックにするために静止画に適用するパンやズームの代用になりそうだ。
その上、アドビは、ユーザーが独自のカスタムモデルをトレーニングできるようにすることを約束している。
リリースされた新しいFireflyモデルとアドビの他のAIツール
上記のツールはすべてスニークピークに過ぎない。私たちはまだテストも使用もできず、一般公開されるのを待つしかない。これらは映画制作を変え、私たちの日常的なワークフローの大きな部分を占めるようになるのだろうか?そうかもしれない。そうでないかもしれない。いずれにせよ、私たちが心に留めておかなければならないのは、これらのプロジェクトは始まりに過ぎず、この技術は時間とともに良くなっていくということだ。
例えば、最近リリースされたAdobe Firefly画像ジェネレーターの新モデルは、前モデルよりもはるかに自然で一貫性のある画像を提供することを約束している。アドビのアカウントを持っていれば、他のグラフィック系ツールと一緒に、ここで試すことができる。この新モデルについては、近日中に徹底的なレビューを行う予定なので、お楽しみに!
Feature image source: Adobe.