中国検索大手・百度(Baidu)のAIエージェント「DuMate」が、博士課程レベルの高度な課題で構成されるベンチマーク「DeepResearch Bench」でトップスコアを記録し、42モデル中1位となりました。研究開発や高度な情報収集をAIに任せたい企業や研究者にとって、今後の動向が注目されます。
DuMateとは何か:百度が開発する「深く考える」AIエージェント
博士課程レベルの課題に挑む「DeepResearch Bench」で1位
DuMateは、AIエージェントの「深い調査・思考能力」を評価するベンチマーク「DeepResearch Bench」で、100件の博士課程レベルのタスクに挑み、スコア58.03という結果で首位に立ちました。このベンチマークには合計42のモデルが参加しており、DuMateはその中でトップの成績を収めています。
「深層リサーチエージェント」としての位置づけ
DeepResearch Benchは、単純な質問応答ではなく、複数の情報源をまたいだ調査や、仮説検証、論理的な構成力など、研究者のような思考プロセスをどこまで再現できるかを試すものとされています。DuMateはそこで高い評価を得たことで、「検索して答えるAI」から一歩進み、「自ら調べ、考え、まとめるAI」としてのポジションを強めました。
百度エコシステムとの連携可能性
百度は検索エンジンやクラウド、オフィスツールなど多様なサービスを展開しており、DuMateはそれらと連携することで、業務全体のワークフローに入り込む「総合リサーチエージェント」になる可能性があります。たとえば、検索結果や社内文書をまたいだ調査レポート作成、技術文書の要約、特許情報の俯瞰など、知的生産の多くを支援できるとみられます。
DeepResearch Benchでの成果が意味するもの
「100の博士課程レベル課題」とは何を示すのか
今回言及された「100 PhD-level tasks(100件の博士課程レベル課題)」とは、専門分野の論文を読み解いたうえでの考察や、複雑な前提条件を踏まえた問題設定など、人間の高度な専門知識と推論力が問われるタスク群を意味します。DuMateはこうした課題に対し、一定の一貫性と正確さを持って回答できるレベルに達していると評価されたことになります。
スコア58.03と他モデルとの比較の意味
スコア58.03という数値は、一見すると「満点ではない」印象を与えますが、博士課程レベルの課題に対して約6割近いパフォーマンスを安定して出せているとも解釈できます。しかもこれは、42もの競合モデルを抑えて1位という結果であり、現行技術の中ではDuMateがもっとも「深く考えられる」AIエージェントの一つであることを示しています。
研究・ビジネス現場へのインパクト
この成果は、研究機関だけでなく、コンサルティング、金融、製薬、製造業など、情報分析が業務の中核を占める業界にとっても意味があります。従来、人が数日〜数週間かけて行っていた文献調査や競合分析、技術動向の整理を、DuMateのようなエージェントが初期案として短時間で提示できれば、人間はより創造的な判断や戦略立案に時間を割けるようになります。
Baidu Create 2026で示される「次の一歩」
Baidu Create 2026で何が発表されるのか
百度は「Find out what’s next for DuMate at Baidu Create 2026(Baidu Create 2026で、DuMateの次の展開を紹介する)」と告知しており、年次開発者イベント「Baidu Create 2026」が、DuMateの重要なアップデート発表の場になるとみられます。新バージョンの発表、API公開の拡充、開発者向けツール群の提供など、エコシステムづくりに踏み込む可能性があります。
考えられる進化ポイント:自律性とマルチモーダル対応
深層リサーチエージェントとしてのDuMateの次の一歩としては、以下のような進化が考えられます。
- 人間からの指示を待つだけでなく、自律的に情報収集と更新を続ける「常駐エージェント」化
- テキストだけでなく、図表・グラフ・動画講義なども理解するマルチモーダル対応
- チームでの利用を前提とした、コメント機能やバージョン管理との連携
- 業界ごとに最適化されたテンプレート(調査レポート、特許レビュー、技術比較など)の提供
これらが実現すれば、DuMateは単なる「賢いチャットボット」ではなく、組織全体のナレッジマネジメントを支える基盤ツールに近づいていくことになります。
企業・研究者が今から準備できること
DuMateのようなエージェント型AIを最大限に活用するには、自社や研究プロジェクトにおける「知識の棚卸し」と「データの整理」が重要になります。社内文書や過去レポートを検索しやすく構造化しておくことで、将来的にDuMateと連携させた際、より高精度な分析や提案を引き出しやすくなるでしょう。また、AIに任せる業務と人間が担う業務の切り分けを今のうちから検討しておくことも、導入後の効率化に直結します。
一次情報・参考リンク
まとめ
百度のDuMateが、博士課程レベルの100課題で構成されたDeepResearch Benchで42モデル中1位となったことは、「AIがどこまで人間の高度な調査・思考を代替できるか」という問いに対する重要なマイルストーンです。Baidu Create 2026での発表を通じて、DuMateがどのように実務や研究の現場に組み込まれていくのかが明らかになれば、企業や研究機関のAI戦略にも大きな影響を与えるでしょう。



