LiveEvaluationLLMOpen SourceBenchmarking

OpenEval

轻量级 Agent 评测调度基础设施——只做调度，不内置评测逻辑

已接入基准

≈ 0

改造成本

评分偏差风险

MIT

开源协议

在 GitHub 上查看

核心能力

⚡

零改造接入

Benchmark 以原生形式直接接入，无需重构原始代码，彻底规避因代码改造引入的评分偏差风险。

🔀

Router 架构

OpenEval 充当纯粹的调度路由层，每个 Benchmark 保持自身逻辑的完整性与独立性，互不干扰。

🐳

Docker 隔离执行

容器化并行执行保证环境一致性，按需构建评估环境，无需预置基础设施。

🔌

广泛兼容

兼容任意 OpenAI 兼容 API（vLLM、OpenAI、自定义代理），支持 MCPMark、WebArena、SWE-Bench 等主流基准。

📊

结果聚合报告

内置结果聚合与跨模型对比报告，一次运行即可获得多模型横向对比数据。

🌐

开放社区共建

持续维护与社区共建，打造开放、可信、可扩展的 Agent 评测生态。

架构说明

OpenEval 采用 Router 模式：调度层接收评测请求，将任务路由至对应的原生 Benchmark 容器执行，结果回收后统一聚合输出。各 Benchmark 容器完全隔离，互不干扰。

Eval RequestModel + Benchmark

→

SchedulerOpenEval Router

→

Benchmark ASWE-Bench

Benchmark BWebArena

Benchmark CMCPMark

→

AggregatorResult Report

使用场景

多模型横向评测

同一批 Benchmark 任务并行运行多个模型版本，自动汇总对比报告，快速识别模型能力边界。

新 Benchmark 快速接入

社区或团队有新评测基准时，以原生代码接入 OpenEval，无需适配层，当天即可投入评测流水线。

CI/CD 评测流水线

集成进持续集成流程，每次模型更新自动触发标准化评测，确保模型质量回归可追溯。

Open Source

在 GitHub 上探索

完全开源，欢迎贡献代码、提交 Issue 或 Star 支持我们。

evolvent-ai/OpenEval