米Meta(旧Facebook)は、同社の最先端音声分離システム「SAM Audio」を支える技術エンジン「Perception Encoder Audiovisual(PE-AV)」をオープンソースとして公開すると発表しました。音と映像を同時に理解するこのモデルの公開は、クリエイターや研究者、開発者にとって、次世代の音声・映像AI開発を加速させる大きなきっかけとなりそうです。
PE-AVとは何か:SAM Audioを支える「知覚エンジン」
Perception Encoderモデルを拡張した「Audiovisual」版
PE-AVは、Metaが今年発表した「Perception Encoder」モデルをベースに、音声(Audio)と映像(Visual)を統合的に処理できるよう拡張したAIモデルです。単なる音声認識や画像認識ではなく、「画面に映っているもの」と「聞こえる音」の対応関係を同時に理解できる点が特徴です。
SAM Audioの中核となる音声分離エンジン
Metaは、画像領域を指定して対象物を切り出す「Segment Anything Model(SAM)」の音版ともいえる「SAM Audio」を開発しており、その内部で音声を分離する中核エンジンがPE-AVです。例えば、複数人が同時に話している動画から、特定の人物の声だけを分離するなど、これまで難しかった処理を高精度で実現することが期待されています。
なぜ映像と音声を一体で扱うと強くなるのか
人間は、うるさい環境でも話し相手の口元や動きを見ながら声を聞き分けています。PE-AVも同様に、映像情報(口の動き、楽器の動き、物体の衝突など)を手がかりに、どの音がどの対象から出ているかを推定します。これにより、マイクだけでは分離が難しい音声も、動画と組み合わせることでより賢く切り分けられるようになります。
オープンソース化がもたらすインパクト
研究・開発者コミュニティへの波及効果
PE-AVがオープンソースとして公開されることで、大学や研究機関、スタートアップなど、幅広いプレイヤーが最先端の音声分離技術を自由に試せるようになります。既存の音声処理モデルと組み合わせた応用研究や、新たなベンチマークの構築が進み、映像×音声AIの標準的な基盤モデルとして活用される可能性があります。
クリエイターにとってのメリット
動画制作者や音楽クリエイターにとっても、この技術の一般公開は大きな追い風となり得ます。オープンソース化により、次のようなツールやサービスが登場しやすくなると考えられます。
- ライブ映像から特定の楽器やボーカルだけを自動で抽出・ミックスする編集ツール
- 街頭インタビューなど雑音の多い映像から、話し手の音声だけをクリアにするノイズ除去ツール
- オンライン会議で、発言者ごとに音声トラックを分離する新しい配信・録画機能
商用ライセンスや利用条件の詳細は今後の発表次第ですが、オープンソースという形で公開されることで、中小規模のプロダクトでも最先端技術を組み込みやすくなる点は大きな利点です。
映像プラットフォーム・SNSへの応用可能性
Meta自身が運営するInstagramやFacebook、Threadsなどのプラットフォームにも、将来的にPE-AV由来の技術がより広く展開される可能性があります。ユーザーごとに聞き取りやすい音声に自動調整したり、リール動画制作時にワンタップで「声だけ強調」「環境音だけ抽出」などができるようになれば、動画コミュニケーションの質は一段と向上するでしょう。
広がる活用シナリオと課題
日常生活・ビジネスでの実用シーン
PE-AVのような映像連動型の音声分離は、エンタメだけでなく、日常やビジネスの様々な場面で役立ちます。
- ハイブリッド会議で、会議室とオンライン参加者の声を自動分離し、議事録作成をしやすくする
- 教育動画で、教師の声と生徒の発言、周囲の雑音を分離し、学習しやすいコンテンツに最適化する
- スポーツ中継で、実況・解説・観客の歓声などを個別に抽出し、視聴者が好みの音だけを選べるようにする
映像情報を使える環境では、従来の「音だけのノイズキャンセリング」よりも細やかなコントロールが可能になるため、新しいユーザー体験の余地は大きいと言えます。
プライバシー・著作権への配慮も不可欠に
一方で、音声を高精度に分離できる技術が広く普及すると、プライバシーや著作権の観点で新たな課題も生まれます。雑踏の中で特定の人物の会話を抽出できてしまう可能性や、音源分離を悪用した違法な楽曲利用なども懸念されます。
Metaを含む各社は、技術そのものの公開だけでなく、利用ガイドラインの整備や、モデル側での安全対策(悪用検知・制限など)も並行して進めていく必要があります。オープンソースコミュニティにおいても、「どう使うべきか」という倫理的議論が重要になっていくでしょう。
まとめ
Metaがオープンソース化する「PE-AV」は、映像と音声を一体で理解する次世代の知覚エンジンであり、SAM Audioのような最先端の音声分離技術を支える基盤モデルです。その公開により、研究からクリエイティブ制作、ビジネスツールに至るまで、幅広い分野で新たなアプリケーションが生まれる可能性があります。一方で、プライバシーや著作権といった社会的な課題への配慮も欠かせません。映像×音声AIの強力な「共通インフラ」となり得るこの技術を、どのように社会に実装していくかが今後の焦点となりそうです。



