Metaが開発を進めるセグメンテーションモデル「SAM 3.1」では、新たに「オブジェクト多重化(object multiplexing)」という仕組みが導入され、1回の計算で最大16個の物体を同時に追跡できるようになりました。これにより、従来と比べて動画処理の速度が約2倍に向上し、1枚のH100 GPU上で秒間16フレームから32フレームへとスループットが大きく伸びています。
SAM 3.1とは何か
次世代のセグメンテーション・追跡モデル
SAM 3.1は、画像・動画中の物体を自動的に切り出し、どの物体がどこにあるかを把握するためのAIモデルです。とくに動画では、フレームごとに物体の位置や形を追跡する必要があり、計算量やメモリの負荷が大きくなりがちでした。今回のアップデートは、この「重さ」を解消することを主な狙いとしています。
オブジェクト多重化とは
オブジェクト多重化(object multiplexing)とは、複数の物体をまとめて1回の推論(フォワードパス)で処理する技術です。従来は「物体Aのために1回」「物体Bのためにもう1回」と個別にモデルを通す必要があり、そのたびに計算資源とメモリが消費されていました。SAM 3.1では、追跡対象の物体情報を一括してモデルに入力することで、冗長な繰り返し処理をなくしています。
オブジェクト多重化がもたらす性能向上
最大16オブジェクトを1回で処理
SAM 3.1では、1つのフォワードパスで最大16個の物体を同時に扱えるようになりました。これにより、これまで16個の物体を追跡するために16回必要だった推論を、1回で済ませることができます。同じ物体数を扱う場合でも、計算の重複が大きく削減されるため、GPUメモリのボトルネックが緩和される点も重要です。
動画処理速度が約2倍に向上
Metaによると、オブジェクト数が中程度の動画を処理する場合、1枚のH100 GPU上でのスループットは秒間16フレームから32フレームへとほぼ2倍に向上したとされています。計算の無駄が減ったことで、同じハードウェア環境でもより多くの動画フレームをリアルタイムに近い速度で処理できるようになり、ライブ配信や監視カメラ、スポーツ中継などの用途での実用性が高まります。
実務・産業へのインパクト
計算コストとインフラ負荷の削減
同じGPU台数で処理できるフレーム数が2倍になれば、クラウドやオンプレミス環境におけるインフラコストを抑えつつ、処理可能な動画本数を増やせます。特に多数のカメラ映像を扱う監視システムや、データセンターで大規模に動画解析を行う企業にとっては、GPU増設に頼らず性能を引き上げられる点が魅力です。
リアルタイム性が求められる現場での応用
処理の高速化は、工場の製造ライン監視や自動運転向けの周辺監視、スポーツ・イベントのライブ解析など、リアルタイム性が重視される現場での価値が大きくなります。これまで遅延やフレーム落ちのために高度な解析を諦めていたユースケースでも、SAM 3.1クラスのモデルを組み込むことで、新たなサービスや製品の可能性が広がると考えられます。
まとめ
SAM 3.1のオブジェクト多重化は、1回の推論で最大16個の物体を同時に追跡できるようにすることで、動画処理のボトルネックとなっていた冗長な計算とメモリ負荷を大きく軽減しました。その結果、H100 GPU1枚あたりのスループットは16フレーム/秒から32フレーム/秒へとおよそ2倍に向上しています。今後、こうした効率化技術が広く普及すれば、動画AIの高度な分析をより身近なコストで利用できるようになり、産業・サービスの両面で新たなイノベーションを後押しすることが期待されます。



