2025-11-05-insights

发表于 2025-11-09 更新于 2025-11-15 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 204 阅读时长 ≈ 1 分钟

Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation

这篇工作挺有趣的：作者发现multiagent，尤其是rl训练的multiagent，会出现严重的不对等问题，所有agent都退化了，最后只有一个agent在说话，别人围观。作者设计了一些方案来缓解这个问题

agent领域的MoE rebalance loss...