BenchSpan

BenchSpan kjører AI-agent-benchmarks parallelt i Docker, samler resultater for teamet og støtter standard- og egendefinerte tester.

Er du utvikleren av denne appen? Verifiser eierskapet for å administrere denne oppføringen.

BenchSpan er en agent benchmarking-plattform designet for utviklere som bygger AI-agenter, som gjør det mulig å fullføre benchmarks på minutter i stedet for timer.[1] Den kjører evalueringer i isolerte Docker-containere parallelt, og støtter arbeidsbelastninger som 14-timers SWE-benken med minimalt oppsett.[1]

Brukere gir et enkelt bash-skript for å starte agenten sin, uten behov for rammeverklåsing eller spesifikke grensesnittendringer.[1] Plattformen tilbyr et bibliotek med standard benchmarks, inkludert SWE-bench Verified, SWE-bench Lite, Terminal-Bench, HumanEval, MBPP, MATH og GPQA, eller tillater egendefinerte benchmarks.[1] Konfigurer antall parallelle forekomster og start kjøringer direkte fra grensesnittet.[1]

Resultatene fanger opp detaljerte beregninger som poeng, baner, tokenbruk, ventetid og tilpassede data, alt sentralisert i et søkbart teamdashbord.[1] Kjøringer er merket med commit-hash for enkel reproduserbarhet og sammenligning på tvers av versjoner.[1] Dette oppsettet effektiviserer evaluering av AI-agent, arbeidsflyt for benchmarking og ytelsessporing for ingeniørteam.[1][9]

Ansvarsfraskrivelse: WebCatalog er ikke tilknyttet, assosiert med, autorisert av, godkjent av eller på noen måte offisielt knyttet til BenchSpan. Alle produktnavn, logoer og varemerker tilhører sine respektive eiere.

BenchSpan

Du liker kanskje også