所有产品
LiveBenchmarkMultimodalAgentOpen Source

MMClawBench

面向真实世界场景的 AI Agent 评测基准,由 40+ 博士成员联合打造

100+
评测题目
40+
博士成员
10+
覆盖领域
5+
参与高校

核心能力

🏛️

顶尖学术背书

来自 NUS、HKU、MIT、UW、Oxford 等顶尖高校的 40+ 位博士成员共同设计,保证题目质量与学术严谨性。

🌍

真实场景模拟

深度模拟真实生活场景,题目融合视频、图片、音频等多模态输入,还原跨时间跨阶段的复杂工作流。

🎯

跨领域全面覆盖

涵盖金融、医学、计算机等专业领域,做到跨职业、跨领域的全面评测覆盖,不依赖单一场景。

🔄

Multi-turn Multi-step

ClawHarness 专为 Multi-turn Multi-step 场景设计,突破传统 Gym 等框架的 Single-turn 局限,更贴近真实部署。

🔬

细粒度能力维度

细粒度能力维度拆分,精准定位模型短板,帮助研究者和工程师聚焦优化方向。

🔗

OpenEval 深度集成

与 OpenEval 框架深度集成,支持自动化批量评测,零额外配置即可纳入标准评测流水线。

架构说明

ClawHarness 定义了 Multi-turn Multi-step 评测接口规范:每轮对话可触发多步工具调用,Harness 记录完整交互历史并支持跨阶段状态传递,最终按维度打分汇总。

Task InputMulti-modal
ClawHarnessMulti-turn Interface
Agent DialogMulti-step Actions
Scoring EngineDimension-wise
ReportCapability Map

使用场景

01

Agent 能力全面摸底

在发布新 Agent 版本前,使用 ClawBench 全面评估其跨领域、跨模态能力,发现盲区。

02

学术论文基准对比

使用 ClawBench 作为论文中的评测基准,100 道高质量题目提供充分的统计显著性。

03

多模态 Agent 专项评测

针对支持视频、图片、音频的多模态 Agent,ClawBench 提供业界最贴近真实的评测场景。

Open Source

在 GitHub 上探索

完全开源,欢迎贡献代码、提交 Issue 或 Star 支持我们。

evolvent-ai/MMClawBench