2025-10-22-insights 发表于 2025-10-24 更新于 2025-10-26 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 229 阅读时长 ≈ 1 分钟 Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model 蚂蚁的工作,把1T A50B的模型跑起来了单轮rl。这种scale下的工作,肯定是从数据、rollout方式到训练加速、算法创新都有的一个形态,这篇工作也差不多,可以好好读一读 话说一直比较好奇kimi、qwen、ant他们一直在做的这个1T A50,是同一个新基模吗…这个基模本身的credit最后被分给哪个组了 相关文章 本月更新(Recent Update) arxiv-insights 2025-10-23-insights 2025-10-21-insights 2025-10-20-insights