BenchSpan

BenchSpan

WebCatalog Desktopをインストールしていませんか?WebCatalog Desktopをダウンロード

AIエージェントのベンチマークを並列実行し、結果・トークン使用量・遅延をチームで共有管理するプラットフォームです。

Mac、Windows (PC) 用デスクトップアプリ

BenchSpan を macOS および Windows 用の WebCatalog Desktop で、専用の気が散らないウィンドウで使用できます。アプリの切り替えが速くなり、マルチタスクもよりスムーズになって仕事の効率が向上します。複数のブラウザーを使わなくても、簡単に複数アカウントを管理・切り替えできます。

多くの拡張機能を備えた、気の散らないウィンドウでアプリを実行できます。

ブラウザを切り替えることなく、複数のアカウントとアプリを簡単に管理・切り替えることができます。

BenchSpan は、AI エージェントを構築する開発者向けに設計された エージェント ベンチマーク プラットフォーム で、ベンチマークを数時間ではなく数分で完了できるようにします。[1]分離された Docker コンテナで評価を並行して実行し、最小限のセットアップで 14 時間の SWE ベンチのようなワークロードをサポートします。[1]

ユーザーは、フレームワークのロックインや特定のインターフェイスの変更を必要とせずに、エージェントを起動するための単純な bash スクリプトを提供します。[1]このプラットフォームは、SWE-bench VerifiedSWE-bench Lite、** Terminal-Bench**、HumanEvalMBPPMATHGPQA などの標準ベンチマークのライブラリを提供するか、カスタム ベンチマークを使用できます。[1]並列インスタンスの数を構成し、インターフェイスから直接実行を開始します。[1]

結果には、スコア、軌跡、トークン使用状況、レイテンシー、カスタム データなどの詳細なメトリクスがキャプチャされ、すべて検索可能なチーム ダッシュボードに一元化されます。[1]実行は、再現性とバージョン間の比較を容易にするためにコミット ハッシュによってタグ付けされます。[1]この設定により、AI エージェントの評価ベンチマーク ワークフロー、エンジニアリング チームのパフォーマンス追跡が合理化されます。[1][9]

ウェブサイト: benchspan.com

免責事項:WebCatalogはBenchSpanによって提携、関連、認可、承認されたものではなく、また何らかの方法で公式に接続されたものでもありません。すべての製品名、ロゴ、ブランドはそれぞれの所有者の所有物です。

こちらもおすすめ

© 2026 WebCatalog, Inc.

BenchSpan - Mac、Windows (PC) 用デスクトップアプリ - WebCatalog