On this page

SAM 2 by Metaで数クリックでビデオのカットアウトとエフェクトを作る

2024.8.6

by Mascha Deikova2024.8.6

Meta社は最近 SAM 2を発表した。この新しいAIモデルは、前モデルの成果を基に、画像やビデオ内の様々なオブジェクトをセグメント化し、ほぼリアルタイムで追跡することができる。この次世代セグメント・エニシング・モデル（SAM）は、ARにおけるアイテムの識別から、ビデオ編集における高速でシンプルなクリエイティブ・エフェクトまで、多くの潜在的用途を持つ。MetaによるSAM 2はオープンソースプロジェクトであり、テスト用のウェブベースのデモも公開されている。

インスタグラム（これもメタ・ファミリーに属する）を使っている人なら、どんな写真や画像からでもワンクリックで作成できるステッカーをご存知だろう。「バックドロップと切り抜き」と呼ばれるこの機能は、およそ1年前にリリースされたメタのセグメント・エニシング・モデル（SAM）を利用している。それ以来、同社の研究者はさらに進化し、動画用の同様のツールを開発することにした。最初のテストを見てみよう：確かに成功した。

メタ社のSAM 2とその技術

SAM 2は、画像や動画中のオブジェクトをリアルタイムで即座にセグメンテーションするための統一モデルで、最先端の性能を達成しています。
SAM 2リリースペーパーからの引用

Meta社によると、SAM 2は、このAIモデルが以前に見たことがなく、トレーニングも受けていないビジュアルであっても、あらゆるビデオや画像から任意のオブジェクトを検出し、セグメンテーションすることができるという。開発者たちは、画像セグメンテーションの成功に基づき、各画像を1フレームの非常に短いビデオと見なした。この視点を採用することで、画像と動画の両方の入力をサポートする統一モデルを作成することができた。(SAM 2トレーニングの技術的な側面についてもっと読みたい方は、公式研究論文をご覧いただきたい）。

A screenshot from the SAM 2 web-based demo interface. Image source: Meta

ベテランのビデオ編集者なら、おそらく肩をすくめるだろう： DaVinci Resolveは、AIを強化した “Magic Mask “で同じことを実現している。さて、ここでの大きな違いは、Metaのアプローチが一方ではオープンソースであり、他方ではプロフェッショナルでなくても使いやすいということだ。また、より複雑なケースにも適用できる。

オープンソースのアプローチ

リリースのアナウンスにあるように、メタはオープンサイエンスへのアプローチを継続したいと考えている。そのため、彼らはSAM 2のコードとモデルウェイトを、寛容なApache 2.0ライセンスで共有している。誰でもここからダウンロードして、カスタマイズされたアプリケーションや体験に使用することができる。

また、メタのSegment Anything Model 2のトレーニングに使用されたSA-Vデータセット全体にアクセスすることもできる。これには、約51,000の実世界のビデオと600,000以上の時空間マスクが含まれている。

メタ社のSAM 2の使い方

AIモデルのトレーニングの経験がない人（私も含めて）のために、Meta社は直感的でユーザーフレンドリーなウェブベースのデモも開始した。ここから始められる。

最初のステップは、変更または強化したいビデオを選択することだ。ライブラリで利用可能なメタデモクリップのいずれかを選択するか、独自のものをアップロードすることができる。(このオプションは、左下にある “ビデオを変更 “をクリックすると表示される）。次に、任意のオブジェクトをクリックして選択する。ビデオのさまざまな部分をクリックし続けると、それらが選択範囲に追加される。あるいは、”別のオブジェクトを追加 “を選択することもできる。私のテストでは、オブジェクトが別々に動く場合、後者のアプローチの方が良い結果をもたらすことがわかった。

Image source: a screenshot from the demo test of SAM 2 by Meta

Track objects “をクリックすると、SAM 2 by Metaはほんの数秒でプレビューを表示する。私の結果はほぼ完璧だった。AIモデルは、犬のリードとボールを数フレーム見逃しただけだった。

「Next」ボタンを押すと、ウェブサイトはライブラリからいくつかのデモエフェクトを適用できるようにする。オブジェクトに単純なオーバーレイをかけたり、選択されていない要素をぼかしたりできる。私は背景の彩度を落とし、コントラストを加えることにした。

もちろん、結果は100％細部まで正確ではないので、手作業によるフレームごとのマスキングと比較することはできない。しかし、このAIモデルが必要としたのはほんの数秒であり、実に印象的だ。

SAM 2 by Metaの応用可能な分野

Metaの開発者が言及しているように、科学研究の補助（顕微鏡から撮影されたビデオ内の動く細胞の分割など）から、ARグラスを介した日用品の識別、タグや指示の追加まで、SAM 2の応用分野は今後無数に広がっていくだろう。

映像制作者やビデオクリエイターにとって、SAM 2は、邪魔な要素のマスキング、背景の除去、オブジェクトへのトラッキング・インフォグラフィックの追加、要素のアウトライン化など、シンプルなエフェクトのための迅速なソリューションになるかもしれない。インスタグラムのストーリーやリールでこのようなオプションを目にする日はそう遠くないだろう。そして正直なところ、これは独立系クリエイターの編集ワークフローを大幅に簡素化し、加速させるだろう。

SAM 2 by Metaのもうひとつの可能性は、ジェネレーティブ・ビデオ・モデルに制御性を加えることだ。ご存知のように、今のところ、テキストからビデオへのジェネレーターに、特定の要素を交換したり、背景を削除したりするように頼むことはできない。しかし、もしそれが可能になったらと想像してみよう。実験のために、約1年前にRunway Gen-2によって生成されたクリップをSAM 2に与えた。これだ：

そして、両方のアニメキャラクターを選択し、黒い切り抜きにして、残りのフレームをぼかした。これがその結果だ：

限界

もちろん、研究段階にある他のモデルと同様、SAM 2にも限界があり、開発者はそれを認め、解決策に取り組むことを約束している。それは以下のようなものだ：

時々、モデルが物体を見失うことがある。これは特に、カメラの視点が急激に変わるとき、多くの要素が混雑しているシーン、あるいは長時間の動画でよく起こる。例えば、上のテスト映像の犬が一旦フレームから離れ、再びフレームに入った場合は問題ない。しかし、これが野良犬の群れだったら、SAM 2は選択した犬を見失う可能性が高い。
SAM 2の予測は、高速で動く物体の細かいディテールを見逃す可能性がある。
これまでSAM 2で得られた結果は研究用デモとみなされ、商業目的で使用することはできない。
ウェブベースのデモは、米国イリノイ州またはテキサス州からのアクセスには公開されていない。