On this page

オーディオのためのAIツール – サウンドポストプロダクションのための最新アプリケーションの概要

by Mascha Deikova

2023.9.13

オーディオのためのAIツール - サウンドポストプロダクションのための最新アプリケーションの概要

by Mascha Deikova2023.9.13

ChatGPTに代表される人工知能がすでにビデオ制作に影響を及ぼしているのは明白だ。ニューラルネットワークに基づく目に見えない小さな機能は、ポストプロダクションソフトウェアにも採用されつつある。しかし、サウンドの領域は、どういうわけか少し焦点から外れたままだ。しかし、技術の進歩は確実に浸透している。オーディオ用のさまざまなAIツールを見てみよう。

人工知能がいかに私たちの生活のあらゆる面に浸透しているかについて議論する必要はないだろう。時にはあまりに速く、憂慮すべき事態に思えることもある。グーグルのAIは今、あなたの脳信号に基づいて、あなたが聴く音楽を特定することができる。こちらの公式の研究論文を読むと、最初の2、3文を読んだだけで鳥肌が立つ。

時に不安になることもあるが、AI技術の発達は便利なツールをもたらし、我々の仕事を強化し、スピードアップするのに役立つ。この記事で “私たち “とは、自分たちでサウンドポストを作るインディーズ映画制作者のことであり、特にオーディオエンジニアのことを指している。

音声合成またはAI音声ジェネレーター

あなたのビデオプロジェクトで、吹き替えが必要になることはかなり多いのではないだろうか。私の意見では、機械が人間の口調や話し方を置き換えることはできないが、AIのパフォーマンスで十分な場合もある。例えば、プリビズやラフカット、人工音声が何らかの形で適切なストーリーにのみ必要な場合などだ。

AIボイスジェネレーターは、Siriが10年以上にわたって主導権を握ってきた世界では大きなニュースではないが、最新のものの中には実に印象的なものもある。LOVOを例にとってみよう。Gennyと呼ばれる同社の音声合成ツールは、最大25以上の感情を表現できる。若い女性の声で詩を読んでもらい、「疲れた」という感情を適用してそのリクエストを繰り返した。結果は印象的で、非常にリアルだった。

AI tools for audio - LOVO and Genny voice generator — Genny’s visual appearance. Image source: a screenshot of LOVO’s interface

しかし、今回のテストで気づいたのは、Gennyのライブラリにあるスピーカーのうち、「感情的な」ボイスオーバーを提供するのは一部のスピーカーだけだということだ。そのため、標準的なナレーションにこだわるか、より感情的なボイスプレゼンターに選択を絞る必要がある。

また、LOVOは無料ではないが、さまざまな料金プランがあり、2週間の無料トライアルもある（Gennyでは20分のスピーチを作成できる）。しかし、Speechify（事前にテキストを入力し、選ばれたプレゼンターがどのように読み上げるかを聞くことができる）、新規ユーザーに10分間の生成ボイスオーバーを無料で提供するMurf.ai、追加データを提供することなく音声を異なる言語に変換できるResembleなど、市場には他にも数十のAIボイスジェネレーターが存在する。

最適な音楽を見つけるオーディオ用AIツール

AIは、あなたのプロジェクトに最適な音楽を見つけることもサポートしてくれるかもしれない。適切な楽曲を探してストック・ライブラリーを何時間もかけて探したことがある人なら、その苦労が現実のものであることを知っているはずだ。そのため、いくつかのプラットフォームでは、いわゆるAI搭載の検索を導入している。

AI tools for audio - Uppbeat AI playlist generator — Image source: Uppbeat

例えば、イギリスの無料音楽プラットフォームUppbeatは、少し前に、ユーザーが入力したテキストに基づいてAIがプレイリストを生成するという新機能を発表した。仕組みはいたってシンプルだ：ユーザーがビデオのシーンや音楽のイメージを説明すると、ほんの数秒で、プラットフォームがライブラリから適切なトラックをいくつか提案してくれるのだ。開発者が言うように、彼らのシステムは大規模な言語モデルChatGPTを使用しており、それが検索に組み込まれている。

あなたのビデオプロジェクトでこの機能を使用する方法については、こちらをご覧ください。

AIの助けを借りて音楽トラック全体を作成する

ストック・ミュージックに耐えられなくなったとき（誰にでもたまにあることだと思うが）、ニューラルネットワークはあなたのために何か違うものを作り出すことができる。現在、（何百もの小規模なものと並んで）2つの大きなAI音楽ジェネレーターがあり、ユーザーを奪い合っている。ひとつはGoogleのMusicLM、もうひとつはMetaのMusicGenだ。

どちらも実験的なAIツールであり、テキスト記述からメロディーを生成することができる。しかし、グーグルが新しいジェネレイティブ・ソフトウェアを試すためにAIテスト・キッチンに参加させているのに対し（ここでサインアップして招待を待つことができる）、メタのプロジェクトは完全にオープンソースである。詳しくはこちらで書いている。

AI tools for audio - MusicLM — MusicLM. Image source: Google

AI tools for audio - MusicGen — MusicLM. Image source: Google

では、ミュージックジェネレーターはどのように機能するのか？機械学習モデルに任意のテキスト記述（または/または参照トラック）を与えると、メロディが返ってくる。例えば、「歪んだギター・リフに支えられた落ち着いたバイオリンのメロディ」や、「フレンズのイントロをダークメタル風にひねったバージョン」をAIに求めることができる。グーグルによると、MusicLMは24kHzで音楽を生成し、それは数分間一貫している。一方、MusicGenは出力トラックを15秒に制限している。

後者は今すぐHugging Face Spaceで試すことができる。私たちのテスト結果はかなりぎこちなく、実際のプロジェクトで使うにはまだ早かったが、ニューラルネットワークは学習速度は速く、来年にはAIが生成する音楽が実現するかもしれない。

オーディオ用AIによるサウンドエフェクト

MusicGenのリリース後、Metaは同様のAIを搭載したサウンドエフェクト用ソフトウェアも発表した。これはAudioGenと呼ばれ、同じ原理で動作する。探しているサウンドを記述し、ニューラルネットワークに魔法をかけさせる。

開発者はAudioGenを公開されている効果音で訓練し、音響シーンをテキストで説明すると、それにマッチした5秒間の音声を生成する。これはオープンソース・プロジェクトでもあるので、Hugging Faceでモデルを試すこともできるし、ここからダウンロードして調整し、さらに訓練することもできる。

AI tools for audio - AudioGen by Meta — Testing space of AudioGen on Hugging Face. Image source: a screenshot from Hugging Face

AudioGenの個人的な初体験は、今のところ厄介なものだった。このモデルは言葉を完璧に理解し、一致する音を見つけようと最善を尽くすが、全体的なトラック構成は一貫性がなく、リアルに感じられない。とはいえ、これは驚くべき開発であり、AIがサウンドライブラリのまともな代替手段を提供するまで、そう時間はかからないだろう。

おそらく覚えていると思うが、アドビも同様のSFXジェネレイティブ機能を、近々発表予定の「Firefly for video」プロジェクトで発表している。私たちはその機能を目の当たりにすることになるだろう。

音声ポストプロダクションと音声品質の向上

アドビといえば、昨年はオーディオ用AIツールを含む、人工知能を使ったさまざまなアプリケーションの開発に力を入れていた。例えば、同社のAIオーディオエンハンサー（Adobe Podcastの一部）は、低品質の音声録音をプロのスタジオで録音したかのようにすることができる。試してみたい方はこちら。

AI tools for audio - Adobe's AI speech enhancer — Image source: Adobe

オーディオエンハンサーは、すべての邪魔なバックグラウンドノイズを除去し、周波数を洗練させるために音を調整し、録音に全体的なプロの品質を与える。これは、特に騒がしい場所でインタビューを録音した場合、発言のために手元にスマートフォンしかなかった場合、または不適切にレベル調整されたオーディオファイルを保存したい場合に最適なスピーチエンハンサーだ。ただし、音声にしか機能しないので、例えば音楽の音質向上には役立たない。

Adobeのサブスクリプションを持っていない場合は、このタスクのための他の類似のAIツールがある。例えば、AI|Cousticsは無料で使用でき、.mp3、.wav、.m4aの音声ファイルに対応している。

音声用AIツールで音声トラックと音楽トラックを分ける

このオーバービューで最後に紹介したい便利なオーディオ・ツールは、LALAL.aiだ。カシオペアと呼ばれる彼らのAIは、ユーザーが音声とサウンドトラックを分離することを可能にする。開発者によると、ニューラルネットワークはステムセパレーションと呼ばれる技術を使って、ボーカルと音楽を区別する。そうすることで、バックグラウンドのメロディーを異なる楽器に分解することもでき、録音の任意の部分を分離して編集することができる。

AI tools for audio - separating tracks with LALAL.ai — LALAL.ai successfully separated all the tracks in my uploaded file. Image source: a screenshot of their browser interface

なぜそのようなツールが必要なのか？いくつかの理由がある。アーカイブ映像を持っていて、その中からボイスオーバーの部分だけが欲しいのかもしれない。また、YouTubeのパロディビデオで、好きな映画やシリーズの特定のオーディオトラックが必要な場合もあるだろう。シンプルなカラオケのバッキングプレートの作成も、LALAL.aiが提供する良い例だ。

LALAL.aiはサブスクリプションプランなしで試すことができるが、10分間の録音に限られる。それ以降は、抽出したい音声の長さに応じて課金される。

完全にゼロコストのツールが必要な場合は、Vocal Removerをご覧ください。このアプリケーションは競合製品に比べるとパワーは劣るが（AIを使って音楽から音声を分離することしかできない）、仕事はしてくれる。

リストはまだまだ続く

この記事で少なくとも10種類のオーディオ用AIツールを紹介したが、まだ表面しか見ていないような気がする。この分野にはエキサイティングな研究がたくさんあり、毎日新しいアプリケーションが登場している。お気に入りの本や小説のSpotifyプレイリストをAIが作成するMuzifyをご存知だろうか？AIがテイラー・スウィフトのようなお気に入りのアーティストの音楽カバーを作成するVoicifyはどうだろう？

Feature image source: created with Midjourney for CineD.

music generator artificial intelligence AI audio software sound recording audio enhancement Music Library sound effects ai tools

Filter:

Sort by:

Filter:

Sort by:

Name	Hostname	Vendor	Expiry
cookiehub	.cined.com	CookieHub	365 days
Used by CookieHub (https://www.cookiehub.com) to store information about whether visitors have given or declined the use of cookie categories used on the site.
wp-wpml_current_language	www.cined.com	OnTheGoSystems	Session
to store language settings
__cf_bm	.bhphoto.com	Cloudflare, Inc.	1 hour
The __cf_bm cookie supports Cloudflare Bot Management (https://www.cloudflare.com) by managing incoming traffic that matches criteria associated with bots. The cookie does not collect any personal data, and any information collected is subject to one-way encryption.
__cfruid	.bhphoto.com	Cloudflare, Inc.	Session
This cookie is set by Cloudflare (https://www.cloudflare.com) for rate limiting policies.
_GRECAPTCHA	www.google.com	Google	180 days
Used by Google reCaptcha for risk analysis
XSRF-TOKEN	databases.cined.com		2 hours
This cookie is written to help with site security in preventing Cross-Site Request Forgery attacks.
cined_tech_lab_session	databases.cined.com		2 hours
This cookie is used for storing the user login status in the Databases Tool
PHPSESSID	www.cined.com		Session
Cookie generated by applications based on the PHP language. This is a general purpose identifier used to maintain user session variables. It is normally a random generated number, how it is used can be specific to the site, but a good example is maintaining a logged-in status for a user between pages.
__cf_bm	.viralsweep.com	Cloudflare, Inc.	1 hour
The __cf_bm cookie supports Cloudflare Bot Management (https://www.cloudflare.com) by managing incoming traffic that matches criteria associated with bots. The cookie does not collect any personal data, and any information collected is subject to one-way encryption.
JSESSIONID	.nr-data.net		Session
General purpose platform session cookie, used by sites with JavaServer Pages (JSP). The cookie is usually used to maintain an anonymous user session by the server.

Name	Hostname	Expiry
_pk_id.	.cined.com	393 days
Used by Matomo to store a few details about the user such as the unique visitor ID
_webpushrSessionLog		Session
to send browser push notifications to our site visitors across all popular browsers

Name	Hostname	Vendor	Expiry
_hjSessionUser_	.cined.com	Hotjar	365 days
This cookie is set by Hotjar (https://www.hotjar.com) when a user first lands on a page. It persists the Hotjar User ID which is unique to that site and ensures data from subsequent visits to the same site are attributed to the same user ID.
_hjSession_	.cined.com	Hotjar	1 hour
This cookie is set by HotJar to Hold current session data. It ensures subsequent requests in the session window are attributed to the same session.
YSC	.youtube.com	Google	Session
This cookie is set by YouTube video service on pages with YouTube embedded videos to track views.
_pk_ses.	.cined.com		1 hour
Short lived cookies used by Matomo to temporarily store data for the visit
_gat_	.cined.com	Google	1 hour
Used by Google Analytics (https://analytics.google.com) to throttle request rate (limit the collection of data on high traffic sites)
_pk_id.	www.cined.com		393 days
Used by Matomo to store a few details about the user such as the unique visitor ID
_pk_ses.	www.cined.com		1 hour
Short lived cookies used by Matomo to temporarily store data for the visit
_ga	.app.viralsweep.com	Google	400 days
Contains a unique identifier used by Google Analytics (https://analytics.google.com) to determine that two distinct hits belong to the same user across browsing sessions.
_gid	.app.viralsweep.com	Google	1 day
Contains a unique identifier used by Google Analytics (https://analytics.google.com) to determine that two distinct hits belong to the same user across browsing sessions.
_gat_	.app.viralsweep.com	Google	1 hour
Used by Google Analytics (https://analytics.google.com) to throttle request rate (limit the collection of data on high traffic sites)

Name	Hostname	Vendor	Expiry
_fbp	.cined.com	Meta Platforms	90 days
Facebook Pixel advertising first-party cookie. Used by Facebook (https://www.facebook.com/business) to track visits across websites to deliver a series of advertisement products such as real time bidding from third party advertisers.
VISITOR_INFO1_LIVE	.youtube.com	Google	180 days
Set by YouTube and used for various purposes, including analytical and advertising.
lastExternalReferrerTime		Meta Platforms	Persistent
Detects how the user reached the website by registering their last URL-address.
lastExternalReferrer		Meta Platforms	Persistent
Detects how the user reached the website by registering their last URL-address.
VISITOR_PRIVACY_METADATA	.youtube.com	Google	180 days

All ニュース

Latest ニュース

All レビュー

Latest レビュー

All ラボテスト

Latest ラボテスト

All How To

Latest How To

オーディオのためのAIツール – サウンドポストプロダクションのための最新アプリケーションの概要

音声合成またはAI音声ジェネレーター

最適な音楽を見つけるオーディオ用AIツール

AIの助けを借りて音楽トラック全体を作成する

オーディオ用AIによるサウンドエフェクト

音声ポストプロダクションと音声品質の向上

音声用AIツールで音声トラックと音楽トラックを分ける

リストはまだまだ続く

Support CineD. Buy with our partners.

Support CineD. Buy with our partners.

Leave a reply

Most recent CineD Videos

Support CineD. Buy with our partners.

Support CineD. Buy with our partners.

最新レビュー

Latest News

もっと見る

Mascha Deikova

All ニュース

Trending

Latest ニュース

All レビュー

Trending

Latest レビュー

All ラボテスト

Trending

Latest ラボテスト

All How To

Trending

Latest How To

音声合成またはAI音声ジェネレーター

最適な音楽を見つけるオーディオ用AIツール

AIの助けを借りて音楽トラック全体を作成する

オーディオ用AIによるサウンドエフェクト

音声ポストプロダクションと音声品質の向上

音声用AIツールで音声トラックと音楽トラックを分ける

リストはまだまだ続く

Support CineD. Buy with our partners.

Support CineD. Buy with our partners.

You may also like ...

Leave a reply

Most recent CineD Videos

ニュースレター

Support CineD. Buy with our partners.

Support CineD. Buy with our partners.

最新レビュー

Latest News

もっと見る

ニュースレター

Mascha Deikova

Take part in the CineD community experience