LiveBenchmarkMultimodalAgentOpen Source

MMClawBench

面向真实世界场景的 AI Agent 评测基准，由 40+ 博士成员联合打造

100+

评测题目

40+

博士成员

10+

覆盖领域

参与高校

在 GitHub 上查看

核心能力

🏛️

顶尖学术背书

来自 NUS、HKU、MIT、UW、Oxford 等顶尖高校的 40+ 位博士成员共同设计，保证题目质量与学术严谨性。

🌍

真实场景模拟

深度模拟真实生活场景，题目融合视频、图片、音频等多模态输入，还原跨时间跨阶段的复杂工作流。

🎯

跨领域全面覆盖

涵盖金融、医学、计算机等专业领域，做到跨职业、跨领域的全面评测覆盖，不依赖单一场景。

🔄

Multi-turn Multi-step

ClawHarness 专为 Multi-turn Multi-step 场景设计，突破传统 Gym 等框架的 Single-turn 局限，更贴近真实部署。

🔬

细粒度能力维度

细粒度能力维度拆分，精准定位模型短板，帮助研究者和工程师聚焦优化方向。

🔗

OpenEval 深度集成

与 OpenEval 框架深度集成，支持自动化批量评测，零额外配置即可纳入标准评测流水线。

架构说明

ClawHarness 定义了 Multi-turn Multi-step 评测接口规范：每轮对话可触发多步工具调用，Harness 记录完整交互历史并支持跨阶段状态传递，最终按维度打分汇总。

Task InputMulti-modal

→

ClawHarnessMulti-turn Interface

→

Agent DialogMulti-step Actions

→

Scoring EngineDimension-wise

→

ReportCapability Map

使用场景

Agent 能力全面摸底

在发布新 Agent 版本前，使用 ClawBench 全面评估其跨领域、跨模态能力，发现盲区。

学术论文基准对比

使用 ClawBench 作为论文中的评测基准，100 道高质量题目提供充分的统计显著性。

多模态 Agent 专项评测

针对支持视频、图片、音频的多模态 Agent，ClawBench 提供业界最贴近真实的评测场景。

Open Source

在 GitHub 上探索

完全开源，欢迎贡献代码、提交 Issue 或 Star 支持我们。

evolvent-ai/MMClawBench