ジェネレーティブAIの技術競争はまだ続いており、フル回転している。この数ヶ月、新興企業も既存企業もビデオジェネレーターに注目しているようで、この分野での発表が続いている。昨日、ChatGPTのメーカーも正式に参加した。しかし、OpenAIのSoraの発表に関するニュースは、そのディープラーニングモデルが前例のないレベルのリアリズムを示すという点で、画期的かもしれない。このツールはまだ一般公開されていないが、公開された事例は世界中のクリエイターに衝撃を与えている。
テキストから画像へのジェネレーターの競争が長らく続いた後、技術はついに動きをシミュレートし、書かれたコマンド(いわゆるプロンプト)のみから短いビデオクリップを作成するのに十分なほど進歩した。つまり、これからはビデオジェネレーターの時代なのだ。今年に入り、Midjourney、Google Lumiereに続き、Soraは大手AI開発企業から3つ目の同様の製品が発表されたことになる。
しかし、これらも、ずっと以前から市場にあったもの(例えばRunway)も、Soraが示すようなクオリティで一貫したハイパーリアリスティックな結果を示すことはなかった。信じてほしい!以前、我々はストック映像に取って代わるほどの技術はまだないと述べた。そして、我々だけではない。
OpenAIがSoraを発表 – ジェネレーティブAI分野での次の飛躍となるか?
では、Soraの何がそんなに特別なのか?まず、競合他社とは異なり、このテキストを動画に変換するモデルは、最大60秒の動画を作成できると言われている。発表の中で説明され、表示されているように、生成されたクリップは “非常に詳細なシーン、複雑なカメラの動き、生き生きとした感情を持った複数のキャラクター “を特徴としている。このモデルは、ユーザーがプロンプトで何を求めるかだけでなく、物理的な世界で物事がどのように存在し、どのように機能するかも理解するという。例を見てみよう:
Soraは、ビッグ・サーのビーチ沿いの波をドローンで撮影しただけでなく、波が岩の上に打ち寄せる物理現象にも完璧に対応している。このようなことをやってのけたAIビデオジェネレーターが過去にあっただろうか?もしそうなら、私は目撃したことがない。一見して人工的に生成された映像だとわかるだろうか?私でなくてもわからないだろう。恐ろしい?確かにそうだ。
オープンAIのSoraにできること
OpenAIの新世代が従来のものと大きく異なるもう1つの点は、1つの動画に異なるショットを組み合わせることができる点だ。次の例では、制作者がディープラーニングモデルに、赤い毛糸で編まれたオートバイのヘルメットをかぶった30歳の宇宙人の冒険をフィーチャーした映画の予告編を想像するよう依頼した。これがその結果だ:
もちろん完璧とは言い難いが、1つのクリップとセットアップの中で異なるショットをシーケンスできるモデルを目撃したのはこれが初めてだ。また、赤い毛糸で編まれたオートバイのヘルメットなど、細部にまで細心の注意が払われていることにも注目してほしい。
さらに、どうやらSoraは長いプロンプトを解釈することができるようで、公開されているいくつかの例では、100語以上の非常に詳細なテキスト指示がある。広範なDall-Eトレーニングのおかげで(Soraはいくつかのテクニックをそこから引用している)、スタイルの決定もあなた次第だ:
Soraの公式ウェブページやOpenAIのX(元Twitter)アカウントで、さらなるサンプル動画を見ることができる。
新しいAIビデオジェネレーターの限界
Soraによって作成されたほぼすべての公開動画は、驚くほどリアルに見える-特に、他の動画ジェネレーターを試したことがあり、その限界を知っているならば。例えば、私にとっては、最も怖い結果のひとつは、東京の風景のものだった。というのも、かなり信憑性のある動きをしている人々、濡れた地面に映る本物そっくりの反射、そしてまるで映画のショットのような照明が映し出されているからだ:
しかし、よく見ると、AIの手書きを指摘するようなミスや奇妙なアーチファクトがいくつか見られる。また、泳ぐ奇妙な海の生き物や、クローズアップされた人々の表情など、他の例にも見られる。
それとは別に、OpenAIの開発者たちは、現在のSoraのモデルが複雑なシーンの物理学や原因と結果の理解にまだ苦戦していることを認めている。例えば、リリースの投稿では、”人がクッキーをかじるかもしれないが、その後、クッキーにはかじり跡が残らないかもしれない “と言及している。他の例としては、Soraが左と右を混同しているようなものだ:
OpenAIのSora発表に対する人々の反応
この発表は、賞賛や驚きから純粋な敵意まで、極端な反応に包まれた。ソーシャルメディア上では、多くの人々が、この開発が悪用(遊びや、次期選挙を危うくするような深刻な事柄のために現実を偽造すること)や、クリエイティブ・コミュニティにおける雇用の喪失につながるのではないかという懸念を表明した。
OpenAIのツイッターのあるコメンテーターはこうも述べている: 「ストックフッテージ業界全体が、このツイートひとつで滅びた」とも述べている。
Soraの公開はまだない
AIモデルがまだベータ版である間は、結論を出すのは難しい。OpenAI のチームが注意深く選んだサンプル動画しかないのだ。だから、まずは一般公開を待とう。
開発者たちは、Soraがいつ広く利用可能になるのかについては言及しなかったが、まずいくつかの重要な安全対策を講じると述べている。これには、「誤った情報、憎悪に満ちたコンテンツ、偏見」といった分野の専門家と協力し、人々が新しいテクノロジーを悪用するのを防ぐことも含まれる。また、今回の発表では、一部のビジュアルアーティスト、デザイナー、映画制作者にアクセスを許可することが約束された。その目的は、クリエイティブ・プロフェッショナルにとって最も役立つモデルとなるよう、どのように進化させるかについてフィードバックを得ることだ。いいことずくめだが、反発や帰属問題、業界全体の懸念にどう対処するのだろうか?時間が解決してくれるだろう。
画像出典:OpenAIのSoraによって生成されたビデオから