Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
前几天讲了蚂蚁的新rl模型,今天这个是基模的technique report。作者做了很完善的scaling prediction实验,整体感觉很solid
BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents
qwen新出的search agent工作,作者发现,如果简单得让模型输出自己的confidence,然后尝试多次来提交信心最高的,这种test time scaling方法效果其实不错
之前deepresearch其实报告了一个他们的confident select的bc_en 70分结果,但是大家好像不太关注这个方向
