先日開催されたGoogle I/O2024で、グーグルは最新のニュースや発表を行った。その中で、グーグルのVeoは 「これまでで最も高性能なジェネレーティブ・ビデオ・モデル 」と言われている。公開されたショーケースを見る限り、この新しいAIツールは、今年初めに映画制作界に大きな話題をもたらしたOpenAIのSoraに対抗できるようだ。
AIの助けを借りて動画を生成するというグーグルの試みを、私たちは何年も追いかけてきた。ImagenやPhenakiを覚えているだろうか?そして今年1月に発表されたばかりのLumiereはどうだろう?これらのニューラル・ネットワークはいずれも一般に公開されたことはない。しかし結果的に、同社の研究は実を結んだ。発表によると、Veoはこの分野でのこれまでの実験を土台にしている。イベント中と公式発表文の両方で示された結果は、印象的なものだった。
グーグルのVeoの主な詳細
市場での厳しい競争に対抗するため、グーグルは先達が行ったすべての機能を盛り込み、さらにその上を行く必要があった。したがって、グーグルのVeoは、「1分を超えることができる高品質で1080p解像度の動画を、幅広い映画的・視覚的スタイルで 」生成すると言われている。開発者は、彼らのモデルが複雑なテキストプロンプトを理解し、超リアルな画像を生成でき、フレーム間の一貫性を達成することを確認した。これは、美しい夕日が沈む平原を馬に乗った一人のカウボーイが走っている、公開された例のひとつだ:
このビデオクリップが私たちに衝撃を与えないのは、OpenAIのSoraによる同様のショーケースをすでに見ているからに他ならない。もしグーグルのVeoが今年の初めに発表されていたら、私たちはこの技術に圧倒されていただろう。とはいえ、Soraがまともな競争相手を手に入れたのだから、AI開発者たちはますます限界に挑戦していくに違いない。
映像クリエイターのためのショットコントロール
グーグルのチームがVeoの大きな強みとして挙げているのは、かつてないレベルのクリエイティブ・コントロールだ。ニューラルネットワークは、あらゆる種類の映画的エフェクトのプロンプトを理解できると言われている。つまり、ユーザーは「コマ撮り」、「空撮」、「パン撮影」などの映画制作用語を説明文に含めることができ、希望通りの動きを得ることができる。こんな感じだ:
GoogleのVeoで動画を編集する
結果をコントロールするもう一つの可能性は、GoogleのVeoが搭載を約束している編集機能だ。この機能は、最近発表されたAdobeのGenerative Fillに似ている。つまり、最初のクリップをVeoにアップロードし(オリジナルの映像でも、生成された映像でも構わない)、その構成要素の一部を変更できるようになる。例えば、これはハワイのジャングルの海岸線をドローンで撮影したものだが、これもVeoが作成したものだ:
この実験のために、開発者はディープラーニング・モデルに編集コマンドを入力し、それをプロンプトの最後に配置した: 「ハワイのジャングルの海岸線をドローンで撮影、晴れた日。水面にはカヤック。」
グーグルによると、Veoはマスク編集にも対応しており、ユーザーは調整したいビデオの領域を指定することができる。同時に、他のビデオジェネレーターと同様に、この新モデルも静止画像を入力として受け付け、それをアニメーション化することができる。
ビデオクリップのシーケンス
OpenAIのSoraの発表で印象的だったのは、シーン全体を構成するクリップのシーケンスを作成する機能だ。もちろん、グーグルもこの機能を避けて通ることはできない。そのため、Veoはユーザーが定義した単一のプロンプト、または一連のプロンプトを使用することができる。次の例は、さまざまなコマンドを組み合わせてストーリーを表現したものだ。すなわち
- 明るいネオンサイン、空飛ぶ車、霧、夜、レンズフレア、ボリューメトリック照明がある、賑やかなディストピアのスプロールを早回しで撮影する。
- 明るいネオンサイン、空に浮かぶ宇宙船、夜、ボリューメトリックな照明の中、近未来的なディストピアのスプロールを早回しで撮影する。
- トップスピードで走る車のネオンホログラム、光速、シネマティック、驚くべきディテール、ボリューメトリック・ライティング。
- 車はトンネルを出て、現実の香港の街に戻っていく。
ご覧の通り、この映像は完璧ではない。しかし、説明にあるように、これが本当に「Veoからの未編集の生出力」だとしたら、その一貫性、言語理解、コントロールのレベルには恐れ入る。あなたはどうだろうか?
グーグルのVeoの倫理と免責事項についての見解
GoogleのVeoの目標は、「誰もがビデオ制作にアクセスできるツールの作成を支援すること 」である。しかし、我々はこれまでの経験から、ジェネレーティブAI(特にビデオ用)が常に倫理をめぐる大きな議論を巻き起こすことを知っている。このツールが悪用されたらどうするのか?新しいモデルがどのような素材でトレーニングされたのか、そしてオリジナルのアーティストに報酬が支払われたのか、どうやって知ることができるのか?(ちなみにそれに関する情報はない)。そして何よりも、もしAIがこのような驚異的なアウトプットを可能にするのであれば、私たちはいったいどうやって現実とAIの産物を区別するのだろうか?
こうした疑問は尽きない。グーグルは、Veoを責任ある方法で世に送り出したいと述べており、生成された動画にはすべてSynthID(AIが生成したコンテンツと透かしを識別するためのツール)を使って透かしが入れられる。また、「プライバシー、著作権、バイアスのリスクを軽減する 」セーフティ・フィルターも実装する予定だ。
また、この記事の動画は、グーグルのチームがマーケティング目的で厳選した結果に過ぎないこともお断りしておきたい。Veoのすべての出力が同じ品質と一貫性を持つかどうかについては、今のところ何の根拠もないし、欠点や限界についての情報もない。このツールについて深く調査するには、まず自分たちで試してみる必要がある。だから、ベータ版を待つことにしよう。
提供時期
GoogleのVeoはまだ一般公開されていない。しかし、同社はクリエイターや映画制作者からのフィードバックを集めたいと考えている。すでに基調講演では、そのようなコラボレーションのひとつを披露している:
今後数週間で、グーグルは他のクリエイターを何人か選び、labs.googleの新しい実験的ツールであるVideoFXを通じて、Veoとその機能の一部のベータテストにアクセスできるようにする。ウェイティングリストへの登録はこちらから。テキストを動画に変換する最新モデルの他のショーケースを見るには、公式発表にアクセスしよう。
Image source: a bunch of stills from the videos, generated by Google’s Veo.