中国Baidu(バイドゥ)のクラウド部門が開発するマルチエージェント基盤「Famou-Agent 2.0」が、LLMエージェントの性能を測る指標「MLE-Bench」で再び首位を獲得し、新たなSOTA(最先端水準)を打ち立てました。製造・金融・交通など多様な業界で利用されている同基盤は、来月開催予定の開発者イベント「Baidu Create」で詳細が公開される見通しです。
Famou-Agent 2.0とは何か
マルチエージェント基盤としての位置づけ
Famou-Agentは、複数のAIエージェントを連携させてタスクを遂行する「マルチエージェント」型のフレームワークです。単一の大規模言語モデルだけでは対応が難しい、複雑でステップ数の多い業務や、異なる専門性を統合するタスクを得意とし、製造業、金融、交通など、現実世界のさまざまな業務シナリオで活用が進んでいます。
企業に信頼される理由
Baidu AI Cloudによると、Famou-Agentはすでに数千社規模の企業で利用されており、「実務で使えるAI基盤」として信頼を獲得しています。マルチエージェント構成により、要件定義、情報収集、分析、レポート生成などを役割分担して行えることから、単なるPoC(実証実験)にとどまらず、実運用フェーズへと移行しやすい点が評価されているとみられます。
MLE-Benchで再び世界トップに立った意味
MLE-BenchとSOTAの背景
MLE-Benchは、マルチエージェントを含むLLMエージェントの性能を、共通のタスク群で比較・評価するためのベンチマークです。ここでのスコアや順位は、単にモデルの精度だけでなく、「どれだけ複雑な問題を安定して解けるか」「長い手順を踏むタスクをどこまでこなせるか」といった総合的なエンジニアリング力を示す指標として注目されています。
昨年に続く1位獲得の意味合い
Famou-Agentは2023年10月にもMLE-Benchで1位を獲得しており、今回はその後継となる「2.0」が再び首位に立ちました。継続的にSOTAを更新していることは、単発の成果ではなく、基盤技術として磨き込みが続いていることを示しています。企業ユーザーにとっては、「将来にわたってアップデートが期待できるプラットフォーム」であることの裏づけと言えるでしょう。
実務へのインパクト
ベンチマークでの高スコアは、現場での導入判断にも影響します。特に、以下のようなケースでは、最先端のマルチエージェント基盤を選ぶメリットが大きくなります。
- 製造ライン全体の最適化や異常検知など、判断プロセスが多段階にわたるタスク
- 金融商品の分析やリスク評価など、専門知識と大量データを組み合わせる業務
- 交通・物流における需要予測とルート最適化など、リアルタイム性と複雑性が高い分野
このような領域で、ベンチマークで鍛えられた戦略や制御ロジックが、そのまま業務効率化やコスト削減につながる可能性があります。
Famou-Agent 2.0の強化ポイント
進化戦略(Evolution Strategies)の高度化
Famou-Agent 2.0では、「進化戦略(Evolution Strategies)」と呼ばれるアプローチが強化されたとされています。これは、エージェント同士の協調方法やタスク達成手順を、反復的な試行と評価を通じて洗練させていく手法の総称です。具体的には、より良い解法パターンを自動的に「選別・継承」していくことで、難度の高いタスクにも対応できるようになります。
長期記憶(Long-horizon memory)の拡張
長期にわたるタスクを扱うためには、過去のやり取りや中間結果を適切に記憶・参照する仕組みが不可欠です。Famou-Agent 2.0では、この「長期記憶(long-horizon memory)」が強化され、プロジェクト全体を通して一貫した判断や方針を維持しやすくなったとされています。たとえば、数週間単位の業務プロセスでも、同じエージェントが状況を理解し続けられることが期待されます。
インフラ面のアップグレード
大規模企業での本格導入には、AIモデルそのものだけでなく、スケーラビリティや信頼性といったインフラ面の設計も重要です。Famou-Agent 2.0では、基盤インフラの改善が図られたとされ、より多くのエージェントを同時に稼働させたり、ピーク時のアクセスにも耐えられる構成が整えられているとみられます。これにより、複数部門での横断的な導入や、グローバル規模での運用も視野に入りやすくなります。
今後の展開と企業が注目すべきポイント
Baidu Createでの「フルリビール」に期待
Baiduは、来月開催予定の開発者イベント「Baidu Create」で、Famou-Agent 2.0の詳細を正式に公開すると予告しています。現時点では、進化戦略・長期記憶・インフラ強化といったキーワードのみが明らかになっており、具体的なアーキテクチャやAPI設計、料金体系などは今後の発表待ちです。
日本企業にとっての示唆
日本企業にとっても、マルチエージェント基盤の進化は無縁ではありません。すでに国内でも、チャットボットや文書要約を超えて、「複数エージェントによる業務フロー自動化」への関心が高まりつつあります。Famou-Agent 2.0のような事例は、次のような観点で参考になります。
- PoC止まりにしないための、スケーラブルなAI基盤設計
- 長期プロジェクトや複雑な業務を前提にした「記憶」と「分業」の仕組み
- 外部ベンチマーク(MLE-Benchなど)による客観的な性能評価の活用
自社でAIエージェントを構築する場合でも、こうした先行事例からアーキテクチャ設計や評価手法を学ぶことができるでしょう。
まとめ
Baidu AI CloudのFamou-Agent 2.0が、MLE-Benchで再び世界トップの座を獲得したことは、マルチエージェント技術が実務レベルで成熟しつつあることを示す象徴的なニュースです。進化戦略や長期記憶、インフラ強化といった要素は、そのまま企業システムへの実装のしやすさに直結します。来月のBaidu Createでの正式発表を追いながら、日本企業も「自社の業務にマルチエージェントをどう組み込むか」を検討しておくことで、次世代の業務自動化に向けた一歩を早期に踏み出せるはずです。


