AIエージェント同士が、同じタスクに遠隔で取り組み、その成果を別のAIが審査する——そんな新しい開発スタイルの実験が進んでいます。コード生成ツール「BLACKBOX」は、自社エージェントとClaude、Codexを同一条件で競わせる遠隔エージェントテストを行い、「コーディングで優れた結果が得られた」とアピールしました。
BLACKBOX Remote Agentsとは何か
同じタスクを複数エージェントが解く実験環境
BLACKBOX Remote Agentsは、同一のプログラミングタスクを複数のAIエージェントに割り当て、その結果を比較するための仕組みを指します。開発者が個別に試すのではなく、あらかじめ用意された条件下でエージェント同士を「リモートで競争」させるイメージです。
Blackbox agent vs. Claude vs. Codexという構図
今回言及されているのは、Blackboxの自社エージェントと、AnthropicのClaude、OpenAI系モデルとして知られるCodexを並べて比較するテストです。いずれもコード生成・補完に強みを持つモデルであり、同じ問題にどうアプローチし、どの程度正確なコードを書けるかが焦点になります。
「遠隔」で動くエージェントという意味合い
「Remote Agents」という表現は、開発者の手元ではなく、クラウド上の環境で自律的にタスクを実行するエージェントを指しています。これにより、開発者はブラウザなどから指示を出すだけで、複数のエージェントを同時に走らせ、その成果をまとめて確認できます。
AIがAIを審査する新しい評価スタイル
ジャッジ役はSonnet 4.5
このテストでは、各エージェントの出力結果を評価する「審査員」として、Sonnet 4.5と呼ばれるモデルが用いられたとされています。人間ではなくAIがジャッジ役を担うことで、短時間で大量の結果を評価できるのが特徴です。
AIジャッジのメリットと注意点
AIジャッジを使うメリットとしては、評価のスピードと一貫性が挙げられます。一方で、評価モデルの得意・不得意によってスコアが偏る可能性もあり、「どのモデルを審査員に使うか」が結果を左右しうる点には注意が必要です。
エージェント比較が開発者にもたらす価値
こうした比較テストが整備されることで、開発者は次のような判断をしやすくなります。
- 自分のプロジェクトに最適なコード生成エージェントを選びやすくなる
- タスクごとに「どのエージェントが強いか」を把握し、使い分ける戦略を練りやすくなる
- モデルのアップデートや新規登場時に、既存エージェントとの性能差を検証しやすくなる
コーディング分野での優位性と開発現場での活かし方
Blackboxが主張する「コーディングでの優れた結果」
BLACKBOX側は、この遠隔エージェント比較において、「コーディングに関しては自社エージェントが優れた結果を出した」とアピールしています。具体的なスコアやタスク内容は明らかにされていないものの、少なくともコード生成性能に自信を示している形です。
開発者が期待できる利用シーン
もしBlackboxエージェントが特定のタスクで高い精度を示すのであれば、以下のような場面で活用価値が高まります。
- 既存コードベースへの関数追加やリファクタリングの自動化
- テストコードやバグ修正案の自動生成
- 複数のAIエージェントを走らせ、最も品質の高いコード案を選ぶ「AI間コンペ」的な開発フロー
複数エージェント併用という新しいワークフロー
今後は、単一のモデルに依存するのではなく、「あるタスクはBlackbox」「別のタスクはClaude」といった形で、複数エージェントをシームレスに切り替える開発フローも現実的になります。遠隔エージェント比較のような取り組みは、そのための基礎データとして機能する可能性があります。
まとめ
BLACKBOX Remote Agentsは、Blackboxエージェント、Claude、Codexといった有力モデルを同一タスクで競わせ、その結果をAIが審査するという新しい評価スタイルを示しました。詳細なベンチマークは今後の公表待ちですが、「複数のAIを同時に走らせて、最良の答えを選ぶ」という発想は、これからの開発現場において重要なトレンドになりそうです。どのエージェントがどの領域で強いのかを見極めながら、最適な組み合わせを探る動きが加速していくでしょう。



