MetaのAI研究部門FAIRは、対面のコミュニケーションを全身レベルで収録した大規模・高品質のビデオデータ「Seamless Interaction Dataset」を公開した。4,000人超の参加者、4,000時間超の映像、6.5万件超のインタラクション、5,000件超のアノテーション付きサンプルを含み、同種では最大級と位置づけられる。人と人が対面でやり取りする際の非言語情報まで扱える次世代AIに向け、重要なステップとなりそうだ。
Seamless Interaction Datasetとは
フルボディ・対面・実世界に焦点
本データセットは、実世界の対面コミュニケーションを全身で捉えた映像で構成され、表情、視線、ジェスチャー、姿勢などの非言語的手掛かりを含む。音声やテキスト中心では捉えきれない微細な相互作用を学習に取り込める点が特徴だ。
規模と内訳:数と多様性で「最大級」
公開情報によれば、参加者の多様性と収録時間の両面で規模が際立つ。主な指標は以下の通りだ。
- 参加者:4,000人以上
- 映像時間:4,000時間以上
- インタラクション:65,000件以上
- アノテーション付きサンプル:5,000件以上
何ができるのか:研究・産業への主な活用例
全身動作と対面会話の同時理解が求められる領域で、訓練・評価用の基盤データとして活用が期待される。
- マルチモーダル対話モデルの訓練・ベンチマーク
- 社会的ロボティクス/ヒューマノイドの行動学習
- AR/VRにおける自然な視線・ジェスチャー推定
- 全身姿勢推定や行動認識の高精度化
- 人間同士の協調作業や支援技術に向けた研究
研究の質を高める設計と留意点
5,000件超のアノテーション付きサンプルは、モデル評価や誤り分析の再現性を高めるうえで有用だ。一方、対面かつ全身を収録する性質上、プライバシーやバイアスの管理、適切な同意・利用範囲の設計が不可欠となる。データの多様性を活かしつつ、公平性や安全性評価をセットで進める視点が求められる。
今後の展望
人の全身的な相互作用を学べるデータ基盤は、対話AI、ロボティクス、XRなど幅広い分野のブレークスルーを後押しする可能性がある。今後は、標準化された評価プロトコルの整備や、倫理・ガバナンス面の透明性を高めながら、実世界応用へつなげられるかが焦点となる。




