Agent 级数据集与 Benchmark
针对 Computer Use、编程、研究和专业工作流 Agent 精细策划的高信号训练与评测数据。每一条样本都经过设计、验证、可追溯。
Agent 数据引擎
我们构建 Benchmark、数据集与长时程环境,让前沿 Agent 能够在真实世界中学习、推理并行动。
从 Chatbot 到 Persistent Agent,AI 系统所需的数据基础设施正在发生根本性变化。
Instruction Tuning 配对数据与 RLHF 偏好数据。由人工标注师策划的静态 (prompt, response) 样本。
沙箱环境中的 Agent 轨迹数据。在单个有界会话内的 RL rollout、工具调用 trace 和奖励信号。
连续多天的交互数据流,涵盖不断变化的环境、持续累积的上下文,以及自我改进的 Agent 行为。
三个方向,同一使命:为 Agent 提供其进化所需的数据与环境。
针对 Computer Use、编程、研究和专业工作流 Agent 精细策划的高信号训练与评测数据。每一条样本都经过设计、验证、可追溯。
我们研究并训练 Proactive Agent——不等待指令,而是预判用户意图、感知上下文、主动采取行动的系统。
Desktop 虚拟机、MCP 服务器、端到端的专业工作流。用于训练和评测跨越数百步骤、长达数小时的真实任务。