Metaは、複雑な音の混ざった音声データから、テキストや画像、時間指定などの指示に基づいて特定の音だけを抜き出せる新しいAIモデル「SAM Audio」を発表しました。音声編集や動画制作、アクセシビリティ向上など、幅広い分野での活用が期待されています。
SAM Audioとは何か
「どの音でも切り出せる」統一モデル
SAM Audioは、複数の音が入り混じった音声から、ユーザーが指定した音だけを分離できる「統一モデル」です。従来は用途ごとに別のモデルが必要でしたが、SAM Audioは一つのモデルでさまざまな抽出条件に対応できる点が特徴です。
テキスト・画像・時間情報で直感的に指示
ユーザーは、次のような複数の方法で「どの音を抽出したいか」を指示できます。
- テキストプロンプト:例「ピアノの音だけ」「話し声を取り出して」など自然言語で指定
- ビジュアルプロンプト:動画内の対象物(例:ドラム、車、犬など)を画像として指定
- スパンプロンプト:タイムライン上で特定の時間範囲を選択して、その区間の音を基準に抽出
これにより、音の専門知識がないユーザーでも、直感的な操作で目的の音を取り出しやすくなります。
コミュニティへの公開と研究目的
MetaはSAM Audio本体だけでなく、周辺技術となる「パーセプションエンコーダーモデル」やベンチマーク、研究論文もコミュニティに共有するとしています。これにより、学術研究者や開発者が自分たちの用途に合わせてモデルを検証・拡張しやすくなり、音響AI研究の土台として機能することが期待されています。
想定される活用分野とインパクト
映像制作・ポッドキャスト編集の効率化
動画やポッドキャストでは、「声は残して環境音だけを抑えたい」「BGMを差し替えたいがセリフはそのままにしたい」といったニーズが多くあります。SAM Audioを使えば、テキストや視覚的な指定だけで対象の音を分離できるため、従来よりも短時間かつ低コストで高度な編集が可能になります。
アクセシビリティ・安全分野での応用
騒がしい環境から特定のアラーム音やアナウンスだけを強調することで、聴覚支援デバイスの性能向上にもつながる可能性があります。また、監視カメラ映像の音声から、クラクションや叫び声など危険を示す音を検出する用途も考えられます。
クリエイティブな音源制作・リミックス
既存の楽曲から特定の楽器パートだけを抽出してリミックスしたり、フィールドレコーディング(街の雑踏や自然音)から特定の音をサンプリングしたりといった、クリエイティブな音楽制作にも活用が期待されます。音の「切り出し」が容易になることで、新しい表現手法が生まれる余地も大きくなります。
研究用データ作成の自動化
機械学習においては、特定の音だけがラベリングされたデータセットを作るのに多大なコストがかかってきました。SAM Audioのようなモデルを組み合わせれば、混合音から対象音を自動的に抽出し、学習データの作成を効率化できる可能性があります。
まとめ
MetaのSAM Audioは、テキスト・画像・時間指定という複数のプロンプトに対応した「統一的な音源分離モデル」として、音声編集からアクセシビリティ、研究用途まで多様な分野への波及が見込まれます。モデル本体に加え、パーセプションエンコーダーやベンチマーク、論文までを公開する方針は、音響AI分野のさらなる発展を後押しする動きと言えるでしょう。今後、オープンなコミュニティでどのような応用事例が生まれるかが注目されます。



