BenchSpan

BenchSpan 是一個 AI 代理基準測試平台，可並行執行評估、追蹤團隊結果，並支援 SWE-bench、HumanEval、Terminal-Bench 等基準測試與自訂測試。

您是這個應用程式的開發人員嗎？驗證擁有權以管理此列表。

BenchSpan 是一個代理基準測試平台，專為建立 AI 代理的開發人員而設計，使基準測試能夠在幾分鐘而不是幾小時內完成。 [1]它在隔離的 Docker 容器中並行運行評估，以最少的設定支援 14 小時 SWE 工作台等工作負載。 [1]

使用者提供簡單的 bash 腳本來啟動代理，無需框架鎖定或特定介面變更。 [1]該平台提供標準基準測試庫，包括 SWE-bench Verified、SWE-bench Lite、Terminal-Bench、HumanEval、MBPP、MATH 和 GPQA，或允許自訂基準測試。 [1]配置並行實例的數量並直接從介面啟動運行。 [1]

結果擷取詳細指標，例如分數、軌跡、令牌使用情況、延遲和自訂數據，所有這些都集中在可搜尋的團隊儀表板中。 [1]運行由提交雜湊標記，以便於跨版本的重現和比較。 [1]此設定簡化了工程團隊的 AI 代理評估、基準工作流程 和績效追蹤。 [1][9]

免責聲明：WebCatalog 與 BenchSpan 並無任何隸屬、關聯、授權或認可關係，亦不以任何方式與其存在官方連結。所有產品名稱、標誌及品牌均為其各自所有者的財產。

BenchSpan

您可能也會喜歡