0%

2025-11-05-insights

Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation

这篇工作挺有趣的:作者发现multiagent,尤其是rl训练的multiagent,会出现严重的不对等问题,所有agent都退化了,最后只有一个agent在说话,别人围观。作者设计了一些方案来缓解这个问题

agent领域的MoE rebalance loss...