OpenAIの最近のAIビデオジェネレーターであるSoraは、それ以前のあらゆるAIビデオジェネレーターを凌駕しているようだ。クリップは恐ろしくリアルに見え、ほとんど無視できる量の視覚的バグや矛盾に悩まされ、マシンに入力されたすべてのプロンプトの背後にある要点を深く「理解」しているようだ。ほとんどのクリップがAIによって生成されたものであることが明らかになりつつあるが、これは新たな段階である。「新たな段階」とは、AIの能力や映像メディアのあり方だけでなく、私たちの社会の構造そのものにおける新たな段階なのだ。
視覚は私たちの感覚の中で圧倒的に突出している。私たちが知覚する情報の80%は、視覚受容器、つまり目からもたらされると推定されている。視覚に基づく知覚は、長い間人類に役立ってきた。優れた色覚は、熟した果物を見つけたり、獲物を追跡したり、カモフラージュした捕食者を避けたりするのに役立った。日の出の優しい光や蝶の繊細な色に驚嘆するのにも役立った。私たちの知覚における視覚の重要性は否定できない。このシステムは私たちの一挙手一投足に影響を与えるため、計り知れない力を秘めている。色とりどりの花や毒カエルが、私たちの視覚に基づく意思決定を利用するために進化したように、マスメディアもまた進化したのである。Sora、LTX Studio、MidJourney、Dall-Eなどは、この方向への新たな一歩に過ぎない
根本的な違いはあるのだろうか?
すべての興味深い質問と同様、明確な答えはない。映画製作の世界には、強力な視覚的操作(そして、音についても触れないでほしい)が満載されている。最も重要な違いは、これらの強力なツールへのアクセス性だと思う。ビジュアル・コミュニケーションは2つの平行した道を歩んでいる: ひとつはテクノロジーに基づく民主化への道、もうひとつは出版に対する支配の拡大への道だ。信頼に足る映像を制作するための敷居は下がり続けているが、コンテンツが増えれば増えるほど、出版社やプラットフォームへのパワーシフトが進む。コダック・ブラウニーは、私たちに無数のストーリーテラーをもたらしたが、同時にコダックに、経済的にも文化的にも絶大な権力を与えた。YouTubeやFacebookなどが放送やコンテンツ出版を「民主化」したことで、前例のない権力が新たな支配者の手に移った。その意味で、Open AIのSoraは、この長い道のりの新たな一歩に過ぎない。
Soraは、信頼に足る映像制作を簡単かつ身近なものにする可能性がある。伝統的な映画制作の方法とは異なり、この方法は現実から切り離された素材であるため違うと主張する人がいるかもしれない。AIシステムはすべてファウンド・フッテージで訓練されているため、これは部分的にしか当てはまらない。さらに、アラキスのサンドワームが撮影された現実だと主張する人はいないだろう。では、ジェネレーティブAIとは何なのだろうか?
大きさは基本である
アクセシビリティ。この分野の進化や革命のたびに見られるように、アクセシビリティは非常に大きな影響力を持つ。技術的な障壁が突破されるにつれて、新規参入者のクリティカルマスが地殻変動を引き起こす。SoraやLTX StudioなどのジェネレーティブAIアプリケーションによって、この地震は始まりつつある。
Soraで作られた動画をどうやって検出するのか?
ジェネレーティブ動画は大幅に改善されたが、私たちはまだ、余分な足や、どこからともなく飛び出してくる小さなレッサーパンダや、薄い空気(または薄い毛皮)の中に消えていく子オオカミを見つけることができる。しかし、私たちは鋭い視覚的直感と批判的思考で、このやんちゃな技術の影響に対抗することはできる!
しかし、それは問題ではない。かつてマーク・トウェインが言ったように:
真実がブーツを履く前に、嘘は世界を半周することができる。
マーク・トウェイン(?)
それともトーマス・フランクリンだろうか?トーマス・ジェファーソン?ウィンストン・チャーチル?テリー・プラチェット?実際に誰が言ったのかはっきりしないという事実は、この点を最もよく表しているのかもしれない。コンテンツを生み出すポピュラスが大きくなればなるほど、公開されるコンテンツが増えれば増えるほど、フィクション、偽情報、操作、陰謀論、全くの嘘から真実を調査し、選別することが難しくなる。仮にこの先、AI動画生成ソフトの改良が止まり、私たち視覚に訓練されたコミュニティがそれらを発見し続けることができたとしても、それは問題ではない。フォトショップで加工されたひどい画像が最後に流行したときのことを考えてみてほしい。フォトショップは20年以上前から存在しているが、それでも人々は最も明白な編集に引っかかってしまう。私たちや、この分野を規制しようとしている人たちがブーツを履く頃には、手遅れになっているだろう。
ジェネレーティブAIは、モーションキャプチャというメディアにどのような影響を与えるのだろうか?
ジェネレーティブAIが市場に与える影響については、ここCineDでもウェブ上でも徹底的に議論されてきた。おそらく最も明白な犠牲者は、ストック映像ビジネスだろう。Google LumiereやOpenAI Soraのようなツールは、この分野のビジネスモデルを根本から破壊するだろう。LightricksのLTX Studioは、その制御可能で選択可能な性質から、より複雑なプロジェクトで同じことをするかもしれない。他にも様々なツールが様々な分野に影響を与えるだろう。監督、DOP、編集者に直接取って代わるものはないだろうが、すべてではないにせよ、ほとんどは経験の浅いスタッフの必要性を最小化し、場合によってはプロを雇うことを時代遅れにするだろう。最近のウィリー・ウォンカの体験談騒動に見られるように、誰でも現実をほとんど無視した比較的ハイエンドなビジュアルを制作できるようになった。
残念なことに、SoraやLTX studioのようなジェネレーティブAIは、市場以上のものを再構築するだろう。それは、視覚情報が真実を示し、世界の認識を作り出す方法を破壊するだろう。それはメディアそのものを変えるだろう。
ジェネレーティブAIはもっと多くのことを再構築するだろう
Soraや他のジェネレーティブAIエンジンは、現実とはほとんど直接関係なく、リアルなビジュアルを作り出す。同じことはCGIにも言えるが、CGIの方がはるかにアクセスしにくい。このアクセシビリティと無限の視覚的可能性のミックスは、メディア全体に波紋を投げかけるに違いない。私たちの知覚のほとんどが視覚情報に由来することを考えると、世界を体験する方法が根本的に再構築されることになると思う。
ソラと社会の構造
現時点では、Soraは1分間の無音クリップに限られている。LTX studioは音声を生成することができ、コントロールや選択能力もはるかに優れているが、Soraが提供する視覚的な繊細さには欠けている。他のツールやアプリケーションは、映画制作の他の側面をサポートすることができるが、現時点では、アクセス(一般公開されていない)や対象(特定のコンテンツが禁止されている)の点で、まだ制限されている。
すべては時間の問題のようだ。技術的な制限は時間の経過とともに消滅する傾向があり、この点ではAIのタイミングはむしろ短い。ある種の視覚的創造分野はやがて苦境に立たされ、消滅さえするだろうが、それは私たちが心配するようなことではない。真実や事実の指標としての視覚メディアの脱構築は、私たち、クリエイター、そして社会全体に、視覚情報の役割の地殻変動を突きつけるだろう。それは、ユートピア的な未来とディストピア的な未来、あるいはその中間をもたらすかもしれない。