←所有产品
LiveBenchmarkMultimodalAgentOpen Source
MMClawBench
面向真实世界场景的 AI Agent 评测基准,由 40+ 博士成员联合打造
100+
评测题目
40+
博士成员
10+
覆盖领域
5+
参与高校
核心能力
🏛️
顶尖学术背书
来自 NUS、HKU、MIT、UW、Oxford 等顶尖高校的 40+ 位博士成员共同设计,保证题目质量与学术严谨性。
🌍
真实场景模拟
深度模拟真实生活场景,题目融合视频、图片、音频等多模态输入,还原跨时间跨阶段的复杂工作流。
🎯
跨领域全面覆盖
涵盖金融、医学、计算机等专业领域,做到跨职业、跨领域的全面评测覆盖,不依赖单一场景。
🔄
Multi-turn Multi-step
ClawHarness 专为 Multi-turn Multi-step 场景设计,突破传统 Gym 等框架的 Single-turn 局限,更贴近真实部署。
🔬
细粒度能力维度
细粒度能力维度拆分,精准定位模型短板,帮助研究者和工程师聚焦优化方向。
🔗
OpenEval 深度集成
与 OpenEval 框架深度集成,支持自动化批量评测,零额外配置即可纳入标准评测流水线。
架构说明
ClawHarness 定义了 Multi-turn Multi-step 评测接口规范:每轮对话可触发多步工具调用,Harness 记录完整交互历史并支持跨阶段状态传递,最终按维度打分汇总。
Task InputMulti-modal
→ClawHarnessMulti-turn Interface
→Agent DialogMulti-step Actions
→Scoring EngineDimension-wise
→ReportCapability Map
使用场景
01
Agent 能力全面摸底
在发布新 Agent 版本前,使用 ClawBench 全面评估其跨领域、跨模态能力,发现盲区。
02
学术论文基准对比
使用 ClawBench 作为论文中的评测基准,100 道高质量题目提供充分的统计显著性。
03
多模态 Agent 专项评测
针对支持视频、图片、音频的多模态 Agent,ClawBench 提供业界最贴近真实的评测场景。