所有产品
LiveEvaluationLLMOpen SourceBenchmarking

OpenEval

轻量级 Agent 评测调度基础设施——只做调度,不内置评测逻辑

5+
已接入基准
≈ 0
改造成本
0
评分偏差风险
MIT
开源协议

核心能力

零改造接入

Benchmark 以原生形式直接接入,无需重构原始代码,彻底规避因代码改造引入的评分偏差风险。

🔀

Router 架构

OpenEval 充当纯粹的调度路由层,每个 Benchmark 保持自身逻辑的完整性与独立性,互不干扰。

🐳

Docker 隔离执行

容器化并行执行保证环境一致性,按需构建评估环境,无需预置基础设施。

🔌

广泛兼容

兼容任意 OpenAI 兼容 API(vLLM、OpenAI、自定义代理),支持 MCPMark、WebArena、SWE-Bench 等主流基准。

📊

结果聚合报告

内置结果聚合与跨模型对比报告,一次运行即可获得多模型横向对比数据。

🌐

开放社区共建

持续维护与社区共建,打造开放、可信、可扩展的 Agent 评测生态。

架构说明

OpenEval 采用 Router 模式:调度层接收评测请求,将任务路由至对应的原生 Benchmark 容器执行,结果回收后统一聚合输出。各 Benchmark 容器完全隔离,互不干扰。

Eval RequestModel + Benchmark
SchedulerOpenEval Router
Benchmark ASWE-Bench
Benchmark BWebArena
Benchmark CMCPMark
AggregatorResult Report

使用场景

01

多模型横向评测

同一批 Benchmark 任务并行运行多个模型版本,自动汇总对比报告,快速识别模型能力边界。

02

新 Benchmark 快速接入

社区或团队有新评测基准时,以原生代码接入 OpenEval,无需适配层,当天即可投入评测流水线。

03

CI/CD 评测流水线

集成进持续集成流程,每次模型更新自动触发标准化评测,确保模型质量回归可追溯。

Open Source

在 GitHub 上探索

完全开源,欢迎贡献代码、提交 Issue 或 Star 支持我们。

evolvent-ai/OpenEval