2023年、私たちはジェネレーティブAIに触れ始めたばかりで、突然ロボットが絵を描いたり、人間のような言葉で会話できるようになったことに困惑し、興奮していた。一方、2024年は(あらゆる意味で)猛スピードで駆け抜けた。フォトリアリスティックな動画(奇妙なアーティファクトを伴うが、それでも)を作成するための無数の新しいAIビデオジェネレーター、強化されたポストプロダクション機能、完全なAIベースのプロダクションアプリケーションなどなど。映像クリエイター向けのAIツールに関して2024年に何がもたらされるのか、そしてこの分野の現在のトレンドを検証する。
過去何年もの間、CineDではAIを活用したツールや私たちの業界に関連する開発について、皆さんに最新情報をお届けしようと最善を尽くしてきた。そして、それに対する反発や批判も受けた。しかし、ユーザーは技術のアップデートに遅れないようにし、少なくとも最近の技術に精通するべきだと信じている。というわけで、「前回までのAI 」を振り返ってみようたい。
AIビデオジェネレーターの時代
年の初めは、次から次へと発表があった。ランウェイに続いて、(小さなスタートアップからハイテク大手に至るまで)各社が独自のテキストから動画に変換するジェネレーターを発表し始めた。最初の「ビッグニュース」は、画像作成AIとしてすでに有名なMidjourneyからもたらされた(しかし、同社の約束した動画生成ツールはまだリリースされていない)。その後、GoogleのLumiere(これは後にGoogleのVeoとなった)、2月に大きな話題を呼んだOpenAIのSora( 一般公開されたのはほんの数週間前)、Luma AIのDream Machineなど、数え上げればきりがない。
独自のAI研究を行っているどの企業も、このジェネレイティブAI競争への参加を控え、傍観することはできないようだ。アマゾンも最近、画像用のNova Canvasや動画用のNova Reelsなど、さまざまな生成モデル、いわゆるNovaを発表した。
テキスト、画像、動画をプロンプトとして処理する機能により、顧客はAmazon Novaを搭載したジェネレーティブAIアプリケーションを使って、動画、図表、文書を理解したり、動画やその他のマルチメディアコンテンツを生成したりすることができます。
発表からの引用
アマゾンの発表によると、上に「パスタ・シティ」が見える。これは、開始されたばかりのtext-to-videoジェネレーターを使ってAmazon Adsが作成した短い動画広告だ。この例で、同社は広告主のための革新的なアプローチを紹介することを目指している。正直言って、怖いと思う。アマゾンの商品ページがやがて人工的なコンテンツに溺れていく様子がありありと想像できる(これについては後述する)。
映像クリエイターのためのAI強化ソフトウェア
ジェネレイティブAIの話題は賛否両論あるかもしれないが、その発展は映像クリエイターにとって有益なAIツールをもたらしてくれる。昨年、編集ソフトに自動トランスクリプトとキャプションをもたらしたAIの言語理解を高く評価した。今年、開発者たちはそれをさらに進めた。映像クリエイターのために特別に調整されたアプリケーションを、AIによって強化された機能で補強し始めたのだ。
そのような2024年のハイライトのひとつが、自動化されたソリューションで撮影制作のトピックに取り組むオールインワン・ソフトウェア「PRODUCER – Maker Machina」だ。例えば、ストーリーボードに参考写真やショットに関する重要なメモを記入すると、このアプリケーションは提供された情報に基づいて、各日のショットリストを自動的に作成する。このプロジェクトのために俳優を手配し、クルーのメンバーを追加すると、適切なコールシートが生成される。このようなツールの背後にある主なアイデアは、次のとおりだ。AIを使用して平凡な反復作業を代行すれば、創造的なプロセスのための時間を増やすことができる。
AIの神経をより深く掘り下げるためのもう一つの例は、以前は単一のニッチに集中していた企業が、現在では映像クリエイターのために、より自動化されたツールや機能を取り入れるようにシフトしていることだ。例えば、Artlist 。音楽やビデオクリップのストックライブラリーとして誰もが知っている。2024年、同社はAIを活用した検索を発表した(これはある程度予想されたことだった)。しかしその後、ArtlistはAI音声 合成ジェネレーターも発表し、提供するサービスを拡大した。私の推測では、同社もジェネレイティブAIの能力と素早い開発を恐れているため、新しいツールの開発を急ピッチで進めているのだと思う。結局のところ、この1年間は、一貫性のある曲(歌詞付きも!)を作成できる新しい音楽ジェネレーターで文字通り賑わっており、オリジナルの作曲家に取って代わることはないだろうが(私の意見では)、時間が経てば確実にストックのメロディーに取って代わることができるだろう。
映像クリエイターのためのマルチモーダルAIツール
2024年の映像クリエイター向けジェネレーティブAIツールのさらなるトレンドは、マルチモーダリティだ。今日では、どのソフトウェアがより良い画像を生成できるか、よりリアルなナレーションを生成できるか、より問題の少ないビデオクリップを生成できるかということだけではない。映像クリエイターの利便性を考え、それらを組み合わせることで、より迅速な結果を得ることができるようになったのだ。昨年の最も顕著な例は、LTX Studioだ。このジェネレーティブAIソフトウェアは、絵コンテやコンセプトの視覚化から、音楽やナレーションの生成まで、すべてを処理できるように設計されている。ジョニーは、ライトリックス社のCEO兼共同設立者であるジーブ・ファーブマンにインタビューを行い、このソフトウェアの可能性だけでなく、このソフトウェアが映像クリエイターに与えるかもしれない悪影響についても話し合った:
Announced playのHollyもマルチモダリティの一例だが、ビデオ編集者向けだ。同社のソフトウェアはまだテスト段階だが、テキストプロンプトに基づいてラフカットを作成することができる。そのために、このツールは機械学習を使って配信されたビデオクリップを分析する。その後、ニューラルネットワークが詳細なメタデータを提供し、音声を書き起こす(ほぼ100の言語を理解する)。確かに、多くの編集者は自分のラフカットを誰かに(あるいは何かに)乗っ取られたくはないだろう。しかし、1つのソフトにこれらの機能があるだけで、かなり便利ではないだろうか?
フォトリアリズムと豊かさ
ジェネレーティブAIを開発・訓練している企業が、可能な限り現実に近い結果を達成しようとしていることは、見過ごせない傾向だ。つまり、写真のような画像、スマートフォンで撮影された可能性のあるビデオクリップ、実在の人物であるかのように騙すことのできる声などだ。その結果、本物のコンテンツと生成されたコンテンツを見分けるのが難しくなる。これが、AIについて自分自身や周囲の人々が認識すべきもう一つの理由だ。AIの能力を知ることは、批判的思考を増幅させ、より慎重に見ることを促す。見たり、読んだり、聞いたりしたことをすべて鵜呑みにしない。これはインターネットユーザーにとって常に重要なことであったが、今はこれまで以上に重要となる。
同時に、ソーシャルメディアがAIによって生成されたコンテンツで溢れかえっていることに私たちは気づいている。そのあまりの多さに、もはや刺激も興奮もない。人々はすでにニューラルネットワークの創造物にうんざりしており、この傾向はさらに悪化するだろう。こうして、ユニークなアイデアや洞察力を持った人間の手による芸術が希少になり始める。だからこそ私は、より高価で時間がかかることが多いとはいえ、その価値は維持されると信じている。
クリエイター向けAIツールへの大きな反発
最後になったが、今年はAIとその開発に対する映像クリエイターの反応を追った。人々は機械に仕事を奪われることを恐れている。彼らは、ディープラーニングが無断で自分たちの作品をトレーニングに使用することに激怒している。その上、人間よりもニューラルネットワークを好む企業、規制行わない政府にも怒っている。私たちがAIツールについて説明する記事から寄せられる批判や憎悪の背後には、多くの未解決の倫理的問題と、何よりも巨大な恐怖がある。
この恐れが不合理だとは言わない。また、ジェネレイティブAIの開発が映像クリエイターにとって何の影響も与えないとも言っていない(ジョニーは、現在私たちが持っている選択肢に関する包括的なガイドを発表しており、一般的なパニックを克服するのに役立つかもしれない。) 私たちが言いたいのは、もう戻れないところまで来ているということだ。ジェネレーティブAI革命が起こっていないかのように、現実逃避するわけにはいかない。その代わりに、我々はAI革命の知識を身につけ、我々の創造性を代替するのではなく、我々のプロセスを補強し、スピードアップするのに役立つツールを導入すべきだ。そして、私たちの技術をさらに発展させるのだ。今、誰でもテキストフィールドに数文字を入力すれば、ビデオクリップを生成することができる。しかし、その中でビジュアルストーリーテリング、カメラワーク、編集におけるリズム、スコアにおけるナレーション、声や演技における細かなニュアンスの重要性を理解している人がどれだけいるだろうか?
Feature image: Midjourneyで生成