面向 auto-research 的初步结果：一个 agent 群体如何在五个开放任务上持续学习

下一代 AI 系统的关键，不只是让一个 agent 更强，而是让一群 agent 像一个组织一样积累经验、共享知识、持续进化。

过去一年，大家已经看到单个 coding agent、research agent、data agent 可以完成越来越复杂的任务。但如果我们把视角从"一个 agent 能不能解决这一次任务"移到"一个组织能不能在长期任务中越做越好"，问题就会变得完全不同。

人类组织的智能从来不只存在于某个个体脑子里。它存在于病例、论文、代码库、复盘文档、实验记录、操作手册和团队默契中。一个医生的病例会帮助后来者，一个工程团队的事故复盘会改变整个研发流程，一个增长团队的投放经验会成为下一轮实验的起点。

Agent 也应该这样。

我们认为，自进化 agent 的真正形态，不是一个模型在一次上下文窗口里"临场变聪明"，而是一个 agent 群体在长期运行中形成组织记忆：每一次尝试、失败、修复、突破，都会进入共享经验层，被后续 agent 读取、压缩、复用，并推动下一轮探索更快到达有效区域。

这就是 Evolvent 正在构建的方向：让 agent 从一次性工具，变成拥有复利记忆的智能组织。

从单体智能到群体智能

今天大多数 agent 系统仍然像"雇了一个聪明实习生"：它可以完成任务，但任务结束后，经验很难自然沉淀。下一次再启动，agent 仍然要重新理解代码、重新踩坑、重新发现哪些方法有效。

真实组织不是这样运转的。组织会把经验变成可复用资产：流程、知识库、benchmark、榜单、最佳实践、失败案例、领域术语、决策原则。个体会学习，团队也会学习。个体能力决定一次任务的上限，组织学习能力决定长期复利。

所以我们把 evolve 分成两个层次：

层次	服务对象	沉淀内容	作用
个体 evolve	单个 agent	skills、memories、logs、state，以及它自己解决问题的方式。	让 agent 从个人历史中学习，少走重复弯路。
群体 evolve	整个 agent 群体	任务轨迹、best programs、leaderboard、notes、synthesis、跨 agent 经验总结。	把多条探索路径压缩成组织经验，让后续 agent 直接站在群体探索的结果上。

个体 evolve 让 agent 更熟练，群体 evolve 让组织更聪明。真正有价值的不是"某个 agent 偶然做对了一次"，而是系统能不能把这次做对的原因留下来，让下一批 agent 更快、更稳、更系统地做对。

在实现上，这意味着 agent 不能只共享最终答案，还要共享探索过程：哪些方向试过、为什么失败、哪个程序当前最好、哪些策略跨任务稳定有效、哪些经验应该进入长期记忆。每个 agent 都在独立工作区里探索，由 grader 给出反馈；共享状态层持续保存 attempts、notes、skills、leaderboard；系统周期性触发 reflect、consolidate、pivot，把零散轨迹整理成可被下一轮 agent 使用的组织知识。

这不是简单地把 context window 变长，而是给 agent 群体加上一套"组织学习回路"。

1. Agent 并行探索

多个 Agent 独立生成候选方案

2. 环境评分反馈

3. 保存完整轨迹

4. 整理组织经验

5. 后续 Agent 继承

为什么是 AutoResearch

为了验证这套机制，我们选择了一组 AutoResearch 风格任务。它们不是聊天问答，也不是固定流程自动化，而是需要反复尝试、评估、修正、再尝试的开放式搜索问题。

这类任务天然适合检验群体智能：

反馈足够可验证：每次提交都会被环境评分，而不是只靠主观判断。
搜索空间足够大：单个 agent 很难一次就稳定找到高质量路径。
经验可迁移：成功模式、失败模式、启发式和代码结构都可以被后续 agent 继承。
领域差异足够大：如果同一套机制能跨系统、算法、科学任务工作，说明它不是为单一 benchmark 定制的技巧。

我们用五个场景观察 Evolvent 的群体进化闭环：信号处理、底层 kernel 优化、MoE 负载均衡、组合优化和分子设计。它们覆盖了从数值科学、系统软件到 AI4Sci 的不同问题形态，但都可以被统一抽象成同一个循环：

agent 生成候选方案，环境给出评价，系统记录轨迹并沉淀群体经验，后续 agent 再基于这些经验继续搜索。

下面是五个任务从初始 seed 到 evolved best 的性能跨度：

org-evol · seed → best

任务性能跨度

五个 AutoResearch 任务上，evolved best 相对初始 seed 的提升。

〰️信号处理+55.7%

Seed0.499

Best0.7767

⚙️Kernel 优化+5.2%

Seed2221 cycles

Best2105 cycles

⚖️EPLB 负载均衡+13.6%

Seed0.1276

Best0.145

🧩Polyominoes+10.8%

Seed72.89

Best80.74

💊Drug Design+5.9%

Seed0.9202

Best0.9741

环境	任务是什么	agent 主要优化什么	观察到的 best
信号处理	实时自适应信号滤波。	在降噪的同时保留动态变化，让输出更贴近 clean target。	0.7767，越高越好。
Kernel Builder	底层 VLIW / SIMD kernel 调度优化。	重排指令、向量化、调整内存访问与调度，让 cycles 更低。	2105 cycles，越低越好。
ADRS / EPLB	MoE expert load balancing。	复制热点 expert，重新放置到 GPU，减少负载倾斜。	0.1450，越高越好。
Frontier-CS / Polyominoes	算法竞赛类 polyomino 拼图 / 装箱。	搜索摆放策略，提高装箱紧凑度和最终评分。	80.739，越高越好。
Drug Design	候选小分子生成与优化。	修改 scaffold、筛选候选结构，提高目标分数。	0.9741，越高越好。

下面是同一组实验在真实评测下的逐任务 best-so-far 记录——每个任务独立绘制，横轴是 grader 评分的尝试序号。可以看到，很多提升不是线性爬升，而是发生在若干次尝试之后的跃迁点，随后进入平台期：

Global best-so-far across AutoResearch tasks：五个任务各自的 best-so-far 曲线，横轴为 graded attempt index，长尾趋于平稳，标注了每个任务的最终 best 与达成尝试数。

案例 1：信号处理

信号处理是最容易直观看到"进化"发生的一组实验。任务是实时自适应信号滤波：输入是一条带噪的动态信号，目标是在降噪的同时尽量贴近干净的目标信号。

这个任务的难点在于平衡。滤波太弱，噪声留下来；滤波太强，动态细节被抹掉。agent 需要在大量候选程序中找到更稳的滤波策略，并通过评分反馈不断修正。

我们跑了两组 context pool 实验，一组使用 Qwen，一组使用 Claude。两组都能看到 best-so-far 随着尝试推进而提升，并且后续 turn 的起点更高。这意味着系统沉淀下来的经验已经开始影响新的探索，而不是每个 agent 都从零开始。

实验	结果	观察
Qwen context pool	best = 0.7584，105 条有效记录。	best-so-far 持续抬升，后期起点明显高于早期。
Claude context pool	best = 0.7767，42 条有效记录。	在更少尝试数内达到更高 best，best 程序能产生更贴近目标信号的滤波曲线。

Signal Processing：evolved 滤波器逐步逼近 clean target 的动图，覆盖三个持续改善的信号（低频正弦、chirp、阶跃），随着 best-so-far 推进，到 target 的平均距离不断下降。

这里的核心不是"某个模型写出了一段不错的滤波代码"，而是系统开始形成任务级直觉：哪些平滑策略会损失动态，哪些参数更稳，哪些结构值得继续局部搜索。这些直觉进入共享经验层后，后续 agent 的探索起点就被整体抬高了。

案例 2：底层 Kernel 优化

Kernel Builder 是一个偏底层系统的问题。环境给定一个 kernel，agent 需要通过调度、向量化和内存访问优化降低 cycles。这个任务的反馈非常工程化：一个看似很小的代码改动，可能会改变整个执行流水线。

这类问题很适合体现群体智能的价值。单个 agent 可能会试出一个局部优化，比如减少某类 load/store，或者调整 SIMD 调度。但如果这些发现只停留在一次运行里，下一次就会被浪费。群体 evolve 的意义，是把这些微小但昂贵的发现沉淀下来：哪些优化方向真的有效，哪些会引入调度冲突，哪些代码形态更容易被硬件执行模型接受。

Kernel Builder：起始状态与 evolved best 对比。核心指标是 cycles，越低越好。

当后续 agent 继承这些模式时，它不再是在随机变异代码，而是在已有工程经验上继续搜索。对系统软件和性能优化来说，这一点尤其重要，因为真正的进步往往来自大量小经验的累积，而不是一次"大灵感"。

案例 3：ADRS / EPLB

EPLB 是 MoE serving 里的 expert load balancing 问题。真实系统中，某些 expert 会成为热点，导致 GPU 负载不均、尾延迟上升。agent 的任务是决定哪些 expert 需要复制，如何放置到不同 GPU 上，从而让负载更均衡。

这个任务的关键在于全局权衡。只盯住局部热点，可能会把瓶颈迁移到另一个 GPU；只追求平均负载，也可能忽略真实 workload 中的长尾压力。单次尝试往往只能证明一个策略在某个 workload 上有效，而多次尝试叠加后，系统可以总结出更稳的策略：热点 expert 优先复制，不要只追局部均衡，关注跨 GPU 的瓶颈迁移。

ADRS / EPLB：起始负载分布与 evolved 后的负载分布对比。

这就是组织经验和单次结果的区别。单次结果告诉你"这次怎么放"；组织经验告诉后续 agent"面对类似负载形态时，应该优先考虑什么"。

案例 4：Frontier-CS / Polyominoes

Polyominoes 是一个组合优化任务：给定一组不规则拼图块，agent 需要把它们尽量紧密地放进网格里。它不像数值优化那样有平滑梯度，更多依赖搜索策略、局部修复和约束处理。

这类任务里的经验通常不是一个单一公式，而是一组启发式：先放大块，减少孔洞，局部回退，把边界形状用于后续填充，避免早期选择造成不可修复的空隙。单个 agent 可以在自己的轨迹里形成这些技能，群体层面则把有效启发式写入共享 notes，帮助后续 agent 更快找到可行布局。

Frontier-CS / Polyominoes：起始状态与 evolved best 的拼装结果对比。

组合优化往往没有一个"看一眼就知道正确"的答案。它需要耐心、试错和记忆。群体智能的价值，就是让试错不被浪费。

案例 5：Drug Design

Drug Design 是一个 AI4Sci 风格的分子优化任务。agent 需要在候选分子空间中搜索更高分的结构，同时兼顾有效性、相似性、新颖性等约束。

这个任务很有代表性，因为它不是简单让分数随机上升。随着 evolve 推进，候选会逐渐偏向某些更稳定的 scaffold family。也就是说，系统记录的不只是"哪个分子得分高"，还包括"哪些结构改动方向更可能带来高分"。

Drug Design：起始分子池与 evolved best 分子结构对比。

对 AI4Sci 来说，这一点很关键。真正有用的系统不应该只是吐出一个分数最高的候选，而应该帮助研究者理解搜索过程：哪些方向被探索过，哪些结构族更有希望，哪些约束在限制进一步提升。群体经验让这些信息不再散落在一次次尝试里，而是被整理成下一轮研究可以复用的知识。

群体智能的飞轮

把这些案例放在一起看，我们真正想证明的不是"某个环境里拿到了一个不错分数"，而是一个更底层的闭环开始成立：

agent 并行探索不同候选方案。
环境和 grader 给出可比较的反馈。
系统保存完整轨迹、best programs、失败案例和中间观察。
经验被整理成 notes、skills、synthesis 和 leaderboard。
后续 agent 读取这些经验，用更高的起点继续搜索。

这个循环每转一轮，组织就多一点经验；经验越多，下一轮探索越少浪费；探索越有效，系统越能发现新的可复用模式。最终形成的不是一个"会做某件事的 agent"，而是一个会持续学习的 agent 组织。

我们相信，这会成为 B 端 agent 系统的重要形态。企业真正需要的不是一次性 demo，而是长期运行后越来越懂业务、越来越懂系统、越来越懂组织偏好的智能体网络。投流、增长运营、行业研究、研发流程自动化、数据分析、实验设计，都是同一类问题：任务会重复出现，环境会变化，经验必须沉淀，组织需要越跑越强。

Evolvent 的目标，就是把这种长期复利带到 agent 系统里。

不是让一个 agent 单次表现得更像专家，而是让一群 agent 在持续工作中，逐渐形成一个真正会学习、会协作、会进化的智能组织。