←所有产品→
LiveEvaluationLLMOpen SourceBenchmarking
OpenEval
轻量级 Agent 评测调度基础设施——只做调度,不内置评测逻辑
5+
已接入基准
≈ 0
改造成本
0
评分偏差风险
MIT
开源协议
核心能力
⚡
零改造接入
Benchmark 以原生形式直接接入,无需重构原始代码,彻底规避因代码改造引入的评分偏差风险。
🔀
Router 架构
OpenEval 充当纯粹的调度路由层,每个 Benchmark 保持自身逻辑的完整性与独立性,互不干扰。
🐳
Docker 隔离执行
容器化并行执行保证环境一致性,按需构建评估环境,无需预置基础设施。
🔌
广泛兼容
兼容任意 OpenAI 兼容 API(vLLM、OpenAI、自定义代理),支持 MCPMark、WebArena、SWE-Bench 等主流基准。
📊
结果聚合报告
内置结果聚合与跨模型对比报告,一次运行即可获得多模型横向对比数据。
🌐
开放社区共建
持续维护与社区共建,打造开放、可信、可扩展的 Agent 评测生态。
架构说明
OpenEval 采用 Router 模式:调度层接收评测请求,将任务路由至对应的原生 Benchmark 容器执行,结果回收后统一聚合输出。各 Benchmark 容器完全隔离,互不干扰。
Eval RequestModel + Benchmark
→SchedulerOpenEval Router
→Benchmark ASWE-Bench
Benchmark BWebArena
Benchmark CMCPMark
AggregatorResult Report
使用场景
01
多模型横向评测
同一批 Benchmark 任务并行运行多个模型版本,自动汇总对比报告,快速识别模型能力边界。
02
新 Benchmark 快速接入
社区或团队有新评测基准时,以原生代码接入 OpenEval,无需适配层,当天即可投入评测流水线。
03
CI/CD 评测流水线
集成进持续集成流程,每次模型更新自动触发标准化评测,确保模型质量回归可追溯。