OpenAIのSoraが大きな話題になって以来、新しいAIビデオジェネレーターの発表がない月はない。今回はLuma AIのDream Machineだ。この製品のページによると、発売されたばかりのこのモデルは、テキストから高品質でリアルなビデオを作成し、しかも高速に処理するという。このジェネレーターでもっとエキサイティングなのは、誰でも今すぐ無料で試せることだ。
Luma AIについて書くのは初めてではない。私は、スマートフォンの簡単な動画から自動3Dスキャンができる同社の大ファンだ。私の意見では、この機能はロケハンに特に役立つ(このビデオ投稿でワークフロー全体の説明を見ることができる)。開発者は自らを “3D AI Company “と呼んでおり、彼らが動画生成レースに参加するのは予想外だった。しかしまた、彼らの知識と大量のスキャン映像を実用的なモデルに移すことができるかもしれない。やってみないとわからないものだ。
Luma AIのDream Machineが約束するもの
説明の中で、Luma AIはDream Machineを、物理的に正確で、一貫性があり、イベント性のあるショットを生成できる、高品質のテキストからビデオ(および画像からビデオ)へのモデルとして紹介している。ニューラルネットワークは120秒で120フレームを生成できると言われている(のテストでは、いくつかの世代は7分もかかったため、必ずしもそうではないことがわかった)。このツールのもうひとつの利点は、その一貫性だ:
Dream Machineは、人、動物、物体が物理的な世界とどのように相互作用するかを理解しています。これによって、キャラクターの一貫性が高く、正確な物理学でビデオを作成することができるのです。
Luma AIのウェブページのモデル説明より
なお、市販されているAIビデオジェネレーターのほとんどは、一貫性と正確な物理演算に苦労している。
現時点では、Dream Machineは5秒のロングショット(延長可能)を生成し、映画のような、あるいは自然なカメラの動きを理解し、再現すると言われている。
言語理解のテスト
Luma AIのウェブサイトにアクセスしてログインすると、ドリームマシンが自動的に起動する。テキストフィールドと画像アップロード用のアイコンからなるシンプルなインターフェースを持っている(以下で詳しく見ていく)。
公正な比較のために、私がモデルに与えた最初のプロンプトは、以前のAIビデオジェネレーターのテストで使用したものと同じものだった。カメラの動きやキャラクターがどのように行動すべきかの説明を加えるなど、少し調整を加えたが。数分後、ニューラルネットワークはその後の結果を吐き出した。
赤いドレスを着た黒髪の女性が動かずに窓際に立ち、外に降り積もる夕方の雪を眺めている。
私のプロンプト
ご覧の通り、競合他社と同様、このビデオジェネレーターは窓の外の雪を維持するのに苦労した。(そのためか、出来上がったシーンでは、女性がとても悲しげで混乱しているように見える)。さらに、私は窓際のキャラクターを動かないようにAIに頼んだが、ドリームマシンはアクションとドラマを加えることにした。
同時に、描写されたシーンの全体的な理解力は素晴らしい。窓、雪、赤いドレスを着た黒髪の女性。女性が振り向いたとき、彼女の顔と体型は異形症に苦しんでいない。彼女は一貫性を保ち、ごく普通に見える。個人的には、これまでのところ、AIビデオジェネレーターでこのような一貫性を目撃したことはない(SoraとGoogleのVeoを除く。) あなたはどうだろうか?
enhanced promptとプロンプトのヒント
Luma AIのジェネレーターで試せる唯一の設定は、”enhanced prompt “と呼ばれるものだ。テキストフィールドに説明を入力すると、対応するチェックボックスが表示される。これはデフォルトで有効になっているので、私の前回の結果はすでにこのオプションを備えていた。ドリームマシンの開発者によると、このオプションはモデルに創造的な自由を与えるので、美しくリアルな結果を得るためにあまり凝る必要はないとのことだ。あなたのプロンプトは短くてもよく、モデルが最適なディテールでギャップを埋めてくれる。
このオプションを無効にすると、シーン、アクション、動き、オブジェクトをできるだけ詳細に記述する必要がある。前回のテキストリクエストはすでに十分に精巧だったので、2回目の実行では、もう一度テキストを使い、”Enhance Prompt “ボックスのチェックを外した。結果はこうだ:
私の素敵な女性に何が起こったのか?あなたのことは知らないが、この結果を見ると寒気がする。その理由は、キャラクターの左手の変位だけでなく、肩の動かし方と首の振り方にある。魔女狩りのホラー映画にとてもふさわしいシークエンスかもしれない。それを除けば、このモデルには上の強化プロンプトと同じように文脈上の問題があった。
画像から動画へのアプローチ
他のAIビデオジェネレーターと同様、Luma AIのDream Machineは、ユーザーが入力として画像をアップロードし、それに追加のテキストを提供することができる。その場合、開発者は「Enhance Prompt」ボタンを有効にして、そのシーンでどのような動作や行動(カメラとキャラクターの両方)が起こるべきかを説明することを推奨している。
もう1度試してみよう。この実験では、画像ジェネレーターのMidjourneyに、同じ黒髪の女性を静止画の形で作成してもらった。私のオリジナルのプロンプトは、カメラの指示はないものの、そのままにしておいた。このとき、テキストから画像に変換するAIには、窓や天候に関する問題もあることに気づいた:
いくつかのパラメーターを追加することで、より良い結果を得ることができたが、なぜか私のキャラクターはアニメのフィギュアになった。しかし、なぜか私のキャラクターはアニメフィギュアになってしまった:
どうだろう?雪があちこちに降っているが、髪が少し動いただけで、この女性はじっとしている。もっと大きな問題は、ビデオジェネレーターがカメラの動きを正しく捉えられなかったことだ。何度か試してみたが、なぜかいつも単純なズームインではなくブームアップになってしまう。精度はこんなものだろう。
Luma AIのDream Machineの現在の限界
開発者自身が指摘しているように、このモデルはまだ研究段階でありベータ版であるため、いくつかの制限がある。例えば、次のようなものだ:
- このAIビデオジェネレーターは(すでに市販されている他のものと同様)、人間や動物の動きには本当に苦労する。走っている犬を生成してみると、前足をまったく動かさないことに気づくだろう。
- 現在のバージョンでは、Luma AIのドリーム・マシンは、首尾一貫した意味のあるテキストを挿入したり作成したりすることができない。
- モーフィングも問題で、定期的に発生することがある。つまり、複雑な動きやアクションの最中にオブジェクトの形が変わってしまうことがあるのだ。
- 現在の柔軟性の欠如。最初から5秒以上のクリップを生成したり、ネガティブプロンプトを追加したり、アスペクト比を変更したりすることはできない。少なくとも今のところは。開発者はFAQのセクションで、Dream Machineの次期バージョンのために追加のコントロールに取り組んでおり、Discordチャンネルでフィードバックを受け付けていると述べている。
Luma AIのDream Machineはトライアウトが可能
全体として、Luma AIのDream Machineは、私がこれまでにテストした他のAIビデオジェネレーターよりも進化しているように感じる。結果の一貫性は高く、人の顔はよりリアルに見え、動きも悪くない。しかし、OpenAIのSoraが約束し、披露しているものにはまだ程遠い。しかし、我々がそれを手にすることができない限り、約束は約束のままだ。
Dream Machineはここで試すことができる。現在、ユーザーは1日5世代無料で利用できる。また、ウォーターマークフリーのダウンロード、商用権、30世代無料+120世代有料の有料プランもある。
Feature image source: Luma AI