2025-10-28-insights

发表于 2025-11-02 更新于 2025-11-08 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 365 阅读时长 ≈ 1 分钟

Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

前几天讲了蚂蚁的新rl模型，今天这个是基模的technique report。作者做了很完善的scaling prediction实验，整体感觉很solid

qwen新出的search agent工作，作者发现，如果简单得让模型输出自己的confidence，然后尝试多次来提交信心最高的，这种test time scaling方法效果其实不错

之前deepresearch其实报告了一个他们的confident select的bc_en 70分结果，但是大家好像不太关注这个方向